آموزش مسدود کردن دسترسی ربات هوش مصنوعی به سایت - وان سرور آکـادمی
آموزش مسدود کردن دسترسی ربات هوش مصنوعی به سایت
آموزش مسدود کردن دسترسی ربات هوش مصنوعی به سایت

آموزش مسدود کردن دسترسی ربات هوش مصنوعی به سایت

زمان تقریبی مطالعه: 3 دقیقه

آموزش مسدود کردن دسترسی ربات هوش مصنوعی به سایت

آیا شما یک تولید کننده محتوا یا یک نویسنده وبلاگ هستید که محتوای منحصر به فرد و با کیفیت بالا برای امرار معاش تولید می کنید؟ آیا متوجه شده اید که ربات های هوش مصنوعی مانند OpenAI یا CCBot از محتوای شما برای آموزش الگوریتم های خود بدون رضایت شما استفاده می کنند؟ نگران نباشید! در این آموزش شما می توانید با استفاده از فایل robots.txt در هاستتان دسترسی این خزنده های هوش مصنوعی را به وب سایت یا وبلاگ خود مسدود کنید.

فایل robots.txt چیست؟

robots.txt یک فایل متنی که به روبات‌هایی، مانند ربات‌های موتورهای جستجو گوگل، یاهو و … ، راهنمایی دقیقی از اطلاعات سایت می‌دهد که چگونه صفحات را در وب‌سایت شما بخزند و فهرست کنند. می‌توانید ربات‌های خوب یا بدی را که فایل robots.txt شما را دنبال می‌کنند مسدود کنید یا اجازه دسترسی دهید.
دستور برای مسدود کردن یک ربات با استفاده از یک عامل کاربر به شرح زیر است:

user-agent: {BOT-NAME-HERE}
disallow: /

و این دستور هم نحوه اجازه دادن به یک ربات خاص به محتوای سایت میباشد:

User-agent: {BOT-NAME-HERE}
Allow: /

فایل robots.txt خود را در کدام آدرس سایتمان قرار دهیم؟

https://example.com/robots.txt
https://blog.example.com/robots.txt

برای اطلاعات بیشتر در خصوص سینتکس ها و دستورات فایل robots.txt میتوانید از دو لینک گوگل و کلادفلر کمک بگیرید:
آموزش گوگل (مقدمه ای بر robots.txt)
آموزش کلودفلر (robots.txt چیست؟ | فایل robots.txt چگونه کار می کند)

چگونه ربات های خزنده هوش مصنوعی را مسدود کنیم؟

با توجه به اطلاعاتی که در خصوص فایل robots.txt در ابتدای مقاله خدمت شما توضیح داده شد به راحتی میتوانید با استفاده از دستورهای زیر دسترسی به رباتهای خزنده هوش مصنوعی را از طریق فایل robots.txt غیرفعال کنید

مسدود کردن OpenAI :

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

لطفاً توجه داشته باشید که OpenAI دارای دو عامل کاربر مجزا برای خزیدن و مرور وب است که هر کدام دارای محدوده CIDR و IP خاص خود هستند. برای پیکربندی قوانین فایروال فهرست شده در زیر، به درک قوی از مفاهیم شبکه و دسترسی سطح ریشه به لینوکس نیاز دارید. اگر فاقد این مهارت‌ها هستید، از متخصص لینوکس استفاده کنید تا از دسترسی به دامنه آدرس IP که دائماً در حال تغییر است جلوگیری کنید.
برای مسدود کردن هم بر اساس نوع سیستم عامل و نوع هاستتان مسدود سازی رنج آی پی ها متفاوت میباشد که برخی از آنها را برای شما نام میبرم: 1- در هاست با استفاده از htacces میتوانید دسترسی رنج آی پی ها را محدود کنید. 2- اگر دسترسی به whm یا هاستینگ را دارید میتوانید محدودیت ip را از فایروالهایی نظیر csf انجام دهید. 3- اگر دسترسی به روت اصلی لینوکس دارید یا سایت شما بر روی سرور مجازی لینوکس پیکبرندی شده بر اساس نوع توابع لینوکس از ابزار فایروال لینوکسی نصب شده مانند ufw – iptables – firewalld برای محدود سازی ip استفاده کنید.

رنج آی پی های چت جی پی تی (ChatGpt) را از کجا پیدا کنم؟

در اینجا لینک منبع ChatGPT در سایت OpenAI رو برای شما قرار میدم که لیست آی پی ها در اینجا قرار داده شده:
https://openai.com/gptbot-ranges.txt

مسدود کردن Google AI (API های تولید کننده هوش مصنوعی Bard و Vertex) :

User-agent: Google-Extended
Disallow: /

برای اطلاعات بیشتر، در اینجا فهرستی از عوامل کاربردی که توسط خزنده‌ها و واکشی‌های Google استفاده می‌شوند، آمده است. با این حال، Google CIDR، محدوده آدرس IP، یا اطلاعات سیستم مستقل (ASN) را برای مسدود کردن ربات هوش مصنوعی که می‌توانید با فایروال سرور وب خود استفاده کنید، ارائه نمی‌کند.

طبق روند انجام شده در ربات مشهور برای مابقی رباتها هم میتوانید از داکیومنتی های محدود سازی از سمت خود سازنده بات هوش مصنوعی راهنمایی بگیرید و محدود سازی ها را انجام دهید. با این روند از اطلاعات مهم خود محافظت میکنید تا توسط یک شخص ثالث یا ابزار هوش مصنوعی در معرض کاربران قرار نگیرد و حق شما پایمال نشود.
اگر سوال یا راهکاری در خصوص این مقاله داشتید میتوانید از بخش نظرات همین پست با ما در میان بگذارید..

5/5 - (3 امتیاز)