درباره robots.txt بیشتر بدانید!

 robots.txt

 

robots.txt فایلی شامل دستورالعمل‎های مربوط به دسترسی و یا عدم دسترسی ربات‎های موتورهای جستجو از جمله ربات‎های گوگل به قسمت‎های مختلف وب سایت می‎باشد. این فایل درشاخه اصلی (root) سایت قرار می‎گیرد .
 

 چرا از robots.txt استفاده می‎شود؟ 

از robots.txt برای جلوگیری از هدر رفتن ترافیک سایت برای جلوگیری از خزیدن ربات‎ها در صفحات بی اهمیت استفاده می‎شود. مخفی کردن یک صفحه برای عدم خزیدن ربات‎های خزنده (crawler) به این معنی نیست که این صفحه از نتایج جستجوی گوگل حذف می‎شود، زیرا ممکن است صفحات دیگر به صفحه‎ی مورد نظر شما لینک شوند و این باعث می‎شود صفحه‎ی شما ایندکس شود. برای اینکه یک صفحه در نتایج جستجو نمایش داده نشود نیاز است از متاتگ noindex استفاده کنید و یا دسترسی به صفحه ی خود را از طریق گذرواژه محدودکنید. 

 برخی  تصاویر، استایل‌ها و اسکریپت‎ها نیز در بارگزاری سایت تاثیرگذار نیستند و همچنین کار را برای درک بهتر ربات‎های خزنده‌ از سایت شما سخت نمی‌کند، می توانید با استفاده از robots.txt  از دسترسی رباتهای خزنده به آنها جلوگیری کنید.

توجه:قبل از ساختن فایل robots.txt حتما باید از اتفاقات ناشی از مسدود کردن قسمتهای مختلف سایت را در نظر داشته باشید. 

 

عملکرد دستور العمل‌های robots.txt

ممکن است برخی ربات‌های خزنده نتوانند دستور العمل‌های robots.txt اجرا کنند و یا برای این فایل اهمیتی قائل نشوند. اما ربات‌های گوگل و دیگر ربات‌های خزنده‌ی مربوط به موتورهای جستجوی معتبر این فایل را بررسی و دستورات آن را اجرا می‌کنند.  بنابراین اگر می‌خواهید از اطلاعات خود در مقابل ربات‌های خزنده‌ی دیگر محافظت کنید، بهتر است از راه های دیگر مانند محدودکردن دسترسی با استفاده از گذرواژه بر روی سرور استفاده کنید.

درک متفاوت ربات های خزنده از دستورات

اگر چه ربات‌های خزنده‌ی مربوط به موتورهای جستجوی معتبر فایل robots.txt  را بررسی می‌کنند، اما ممکن است هر کدام از آن‌ها تفسیر متفاوتی از دستورالعمل‌ها داشته باشند و یا برخی از رباتها دستور العمل‌ها را متوجه نشوند.

 جلوگیری از لینک شدن دیگر سایت‌ها 

 در برخی مواقع ربات‌های گوگل با توجه به دستورات robots.txt  نمی‌خواهند محتوای مسدود شده را ایندکس کند اما ممکن است محتوای مسدود شده‌ی خود را در جاهای مختلف وب بیابید. برای حذف کامل نتایج یک صفحه‌ی خاص میتوانید آن صفحه را در سرور با استفاده از گذرواژه محدود کنید و یا از متاتگ noindex استفاده کنید.

آموزش ساخت robots.txt 

برای ساخت فایل robots.txt یک فایل با نام robots و پسوند .txt ایجاد کنید، سپس دستورات دلخواه خود را در داخل این فایل بنویسید و بر روی شاخه‌ی اصلی سایت بارگزاری کنید. 

دستورالعمل‌های robots.txt

دستور العمل‌های فایل robots.txt  از دو دستور العمل اصلی  User-agent و Disallow تشکیل می‌شود. منظور از  User-agent ربات‌های موتورهای جستجو (و یا نرم افزار های خزنده) می‌باشند. که لیستی از آنها را در اینجا می توانید بیابید.  دستور  Disallow  نیز برای محدود کردن رباتها برای دسترسی به یک لینک خاص می باشد. اگر می خواهید دسترسی  به تمام فرزندان یک لینک خاص را محدود کنید و یک لینک از فرزندان آن را محدود نکنید  می توانید از دستوری به نام allow استفاده کنید.

گوگل از چندین User-agent  مختلف استفاده می کند  . مانند Googlebot برای جستجوی گوگل و Googlebot-Image برای جستجوی تصاویر گوگل. بیشتر این ربات‌ها  مانند Googlebot  عمل می‌کنند. ولی شما می توانید این را با استفاده از دستور العمل‌های robots.txt  رفتار ربات های مختلف را تغییر دهید . 

نحوه‌ی نوشته شدن برخی از دستورالعمل ها به شرح زیر است: 

User-agent: [نام ربات هایی که می خواهید فراخوانی کنید]

Disallow: [آدرس لینکی که می خواهید مسدود شود]

Allow: [آدرس لینکی که اجازه ی دسترسی دارد]

شما می توانید با استفاده از دو خط از دستورات User-agent در یک خط و Disallow در خط بعدی ربات مورد نظر و لینکی که مجاز به دسترسی به آن نیست را انتخاب کنید. 

 

برای واضح تر شدن به مثال های زیر توجه کنید :

عدم دسترسی به ...  کد
کل وب سایت Disallow: /
یک پوشه از وب سایت با یک/ انتها و ابتدا  Disallow: /sample-directory/
یک صفحه از وب سایت Disallow: /private_file.html
ربات جستجوی تصاویر گوگل به یک تصویر

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

کل تصاویر سایت

User-agent: Googlebot-Image

Disallow: /

تصاویر با فرمت gif User-agent: Googlebot
Disallow: /*.gif$
اگر بخواهید در وب سایت خود از گوگل AdSense استفاده کنید، نباید هیچ کدام از خزنده های به جز Mediapartners-Google  این کد تمام صفحات شما را از نتایج جستجو مخفی می کند، به جز خزنده‌ی Mediapartners-Google این خزنده می تواند وب سایت شما را تجزیه و تحلیل کند تا تبلیغات مناسب را به کاربران نمایش دهد. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /

نکته: این دستورات به بزرگی و کوچکی حروف حساس می باشد، همچنین ربات گوگل فضای خالی را نادیده می گیرد . 

الگو برای کد نویسی robots.txt

الگو کد
عدم دسترسی به کلیه ی پوشه هایی که با یک کارکتر خاص شروع می شوند ، به عنوان مثال "private"

User-agent: Googlebot

Disallow: /private*/

عدم دسترسی به پوشه هایی از سایت که با یک علامت خاص آغاز می شوند . مانند : علامت سوال(؟) User-agent: Googlebot
Disallow: /*?
عدم دسترسی به فایل ها با فرمت خاص . برای این کار از $ بعد از فرمت استفاده می کنیم User-agent: Googlebot
Disallow: /*.xls$
دسترسی همه ی ربات ها به صفحات یا پوشه هایی که نام آن ها با علامت سوال (؟) به پایان می رسد . و عدم دسترسی یه تمامی صفحات و پوشه های شامل علامت سوال (؟) User-agent: *
Allow: /*?$
Disallow: /*?

robots.txt خود را بررسی کنید!

 

 برای تست فایل robots.txt خود می‌توانید به ابزار بررسی robots.txt گوگل مراجعه کنید. با استفاده از این ابزار بررسی می‌توانید دسترسی‌ها و عدم دسترسی‌های ربات‌های مختلف گوگل، عکس‌ها و دایرکتوری‌های مسدود شده را  مشاهده کنید. 

 

نحوه ی بررسی robots.txt

  1. در صفحه‌ی ابزار بررسی  robots.txt با حرکت موس به پایین می‌توانید خطاهای نوشتاری و... را در زیر ویرایشگر مشاهده کنید. 
  2. در پایین صفحه قسمتی وجود دارد که می توانید یک آدرس از وب سایت خود را وارد کنید. 
  3. سپس ربات مورد نظر خود را برای بررسی برای دسترسی و عدم دسترسی به صفحه مورد نظر را انتخاب کنید. 
  4. بر روی دکمه ی test  کلیک کنید. 
  5. اکنون می توانید مشاهده کنید که ربات مورد نظر به این صفحه دسترسی دارد یا خیر.
  6. در صورت نیاز می توانید تغیرات لازم را در فایل خود انجام دهید و در  ابزار بررسی نتایج را بررسی کنید. 
  7. درصورتی که نتایج با انتظارات شما مطابقت داشت می توانید فایل را دوباره بر روی هاست خود بارگزاری کنید.

 

محدودیت های ابزار بررسی

  • تغییرات شما در ویرایشگر ابزار بررسی robots.txt  به صورت خودکار در سایت شما تغییر نمی کند و نیاز به بارگزاری مجدد بر روی هاست شما  می باشد.
  • ابزار بررسی robots.txt  گوگل فقط فایل robots.txt  شما را برای رباتهای گوگل بررسی می کند و برای رباتهای دیگر کاربرد ندارد.

 بروز رسانی فایل robots.txt  در گوگل 

  1.  برای بروز رسانی سریعتر فایل robots.txt   می توانید مراحل زیر را دنبال کنید  : 
  2. بر روی گزینه ی submit   در قسمت پایینی ویرایشگر robots.txt  کلیک کنید . 
  3. با کلیک بر روی گزینه ی  download  کد های موجود در ویراشگر ابزار بررسی robots.txt  را دانلود کنید . 
  4. فایل دانلود شده را بر روی شاخه ی اصلی(root) سایت خود آپلود کنید .
  5. روی گزینه‌ی Verify live version برای نمایش robots.txt   سایت خود کلیک کنید . 
  6. بر روی گزینه ی  Submit live version  کلیک کنید . با این کار به گوگل اطلاع می دهید که robots.txt  شما به روز رسانی شده است .
  7. مرورگر خود را رفرش کنید ، سپس روی گزینه latest version  کلیک کنید تا آخرین ورژن robots.txt  را مشاهده کنید .

آخرین بروزرسانی
۱۴ اسفند ۱۴۰۲ 
تعداد کلیک
۳,۶۲۶

فهرست نظرها و ارسال نظر جدید

نام را وارد کنید
ایمیل را وارد کنید
تعداد کاراکتر باقیمانده: 1000
نظر خود را وارد کنید