طراحی وب رادکام

اخبار، مطالب، رویدادهای خدمات و توسعه طراحی وب رادکام

robots.txt چیست؟

robots.txt چیست؟

robots.txt   فایلی شامل دستورالعمل های مربوط به دسترسی و یا عدم دسترسی رباتهای خزنده از جمله رباتهای گوگل به قسمت های مختلف وب سایت می باشد. این فایل درشاخه اصلی (root) سایت قرار می گیرد .

چرا از robots.txt استفاده می شود ؟

 
فایل های غیر تصویری
برای فایل های غیر تصویری از robots.txt برای جلوگیری از هدر رفتن ترافیک سایت برای جلوگیری از خزیدن رباتها در صفحات بی اهمیت استفاده می شود . مخفی کردن یک صفحه برای عدم خزیدن رباتهای خزنده  استفاده از robots.txt  به این معنی نیست که این صفحه از نتایج جستجوی گوگل حذف می شود  ، زیرا ممکن است صفحات دیگر به صفحه ی مورد نظر شما لینک شوند و این باعث  می شود صفحه ی شما ایندکس شود . برای اینکه یک صفحه در نتایج جستجو نمایش داده نشود نیاز است از متاتگ noindex   استفاده کنید و یا دسترسی به صفحه ی خود را از طریق گذرواژه محدودکنید.
فایل های تصویری
با استفاده از robots.txt  می توانید از نمایش تصاویر وب سایت خود در جستجوی گوگل جلوگیری کنید .( با این حال این کار از لینک دهی دیگر صفحات به تصاویر شما جلوگیری نمی کند . )
منابع فایل
در صورتی که برخی  تصاویر ، استایل ها و اسکریپت ها در بارگزاری سایت تاثیرگذار نیستند و همچنین کار را برای درک بهتر رباتهای خزنده ی از سایت شما سخت نمی کند ، می توانید با استفاده از robots.txt  از دسترسی رباتهای خزنده به آنها جلوگیری کنید.
*قبل از ساختن فایل robots.txt   حتما باید اتفاقات  ناشی از مسدود کردن قسمت های مختلف سایت را در نظر داشته باشید .

عملکرد دستور العمل های robots.txt

 
ممکن است برخی رباتهای خزنده نتوانند دستور العملهای robots.txt اجرا کنند و یا برای این فایل اهمیتی قائل نشوند . اما رباتهای گوگل و دیگر رباتهای خزنده ی محترم این فایل را بررسی می کنند و دستورات آن را اجرا می کنند .  بنابراین اگر می خواهید از اطلاعات خود در مقابل رباتهای خزنده ی دیگر محافظت کنید ، بهتر است از راه های دیگر مانند محدودکردن دسترسی با استفاده از گذرواژه بر روی سرور استفاده کنید .
درک متفاوت ربات های خزنده از دستورات
اگر چه رباتهای خزنده ی محترم فایل robots.txt  را بررسی می کنند ، اما ممکن است هر کدام از آن ها تفسیر متفاوتی از دستورالعمل ها داشته باشند و یا برخی از رباتها دستور العمل ها را متوجه نشوند.
جلوگیری از لینک شدن دیگر سایت ها
در برخی مواقع ربات گوگل با توجه به دستورات robots.txt  نمیخواهد محتوای مسدود شده را ایندکس کند اما ممکن است محتوای مسدود شده ی خود را در مکان های مختلف وب بیابید .
برای حذف کامل نتایج یک صفحه ی خاص میتوانید آن صفحه را در سرور با استفاده از گذرواژه محدود کنید و یا از متاتگ noindex   استفاده کنید .

آموزش ساخت robots.txt

در ابتدا کار برای ساخت فایل robots.txt   شما نیاز به دسترسی به شاخه ی اصلی (root) سایت دارید. اگر از دسترسی به شاخه ی اصلی (root) وب سایت خود مطمئن نیستید با سرویس میزبانی وب خود تماس بگیرید .
دستورالعمل های robots.txt
دستور العمل های فایل robots.txt   از دو دستور العمل اصلی  User-agent و Disallow    تشکیل می شود. منظور از  User-agent رباتهای موتورهای جستجو ( و یا نرم افزار های خزنده )   می باشند .  که لیستی از آنها را در اینجا می توانید بیابید .  دستور  Disallow  نیز برای محدود کردن کاربران برای دسترسی به یک لینک خاص می باشد .  اگر می خواهید دسترسی  به تمام فرزندان یک لینک خاص را محدود کنید و یک لینک از فرزندان آن را محدود نکنید  می توانید از دستوری به نام allow استفاده کنید.
گوگل از چندین User-agent  مختلف استفاده می کند  . مانند Googlebot برای جستجوی گوگل و Googlebot-Image   برای جستجوی تصاویر گوگل . بیشتر این ربات ها  مانند Googlebot  عمل می کنند. ولی شما می توانید این را با استفاده از دستور العمل هایrobots.txt  می توانید رفتار ربات های مختلف را تغییر دهید .
نحوه ی نوشته شدن برخی از دستورالعمل ها به شرح زیر است :
User-agent: [نام ربات هایی که می خواهید فراخوانی کنید]
Disallow: [آدرس لینکی که می خواهید مسدود شود]
Allow: [آدرس لینکی که اجازه ی دسترسی دارد]
شما می توانید با استفاده از دو خط از دستورات User-agent   در یک خط و Disallow   در خط بعدی ربات مورد نظر و لینکی که مجاز به دسترسی به آن نیست را انتخاب کنید .
برای واضح تر شدن مطلب به مثال های زیر توجه کنید :

 

 دستورات robots

 

 

نکته : این دستورات به بزرگی و کوچکی حروف حساس می باشد، همچنین ربات گوگل فضای خالی را نادیده می گیرد .
الگو برای کد نویسی robots.txt
 

دستورات robots

 ذخیره ی فایل robots.txt

 
 چند نکته برای ذخیره ی فایل robots.txt  وجود دارد که باید به آنها توجه داشته باشید .
•    فرمت فایل حتما باید txt . باشد .
•    فایل robots.txt  باید در صفحه ی root  سایت قرار بگیرد .
•    نام فایل حتما باید robots.txt  باشد با رعایت حروف بزرگ و کوچک .
به عنوان مثال فایل robots.txt  در سایت http://radcom.ir  باید در آدرس  http://radcom.ir/robots.txt  قرار دارد .

robots.txt   خود را بررسی کنید!

 
برای تست فایل robots.txt  خود می توانید به ابزار بررسی robots.txt گوگل مراجعه کنید . با استفاده از این ابزار بررسی می توانید دسترسی ها و عدم دسترسی های رباتهای مختلف گوگل ، عکس ها و دایرکتوری های مسدود شده را  می توانید مشاهده کنید .
نحوه ی بررسی robots.txt
1.    در صفحه ی   ابزار بررسی robots.txt   با حرکت موس به پایین می توانید خطاهای نوشتاری و ... را در زیر ویرایشگر مشاهده کنید .
2.    در پایین صفحه قسمتی وجود دارد که می توانید یک آدرس از وب سایت خود را وارد کنید .
3.    سپس ربات مورد نظر خود را برای بررسی برای دسترسی و عدم دسترسی به صفحه مورد نظر را انتخاب کنید .
4.    بر روی دکمه ی test  کلیک کنید .
5.    اکنون می توانید مشاهده کنید که ربات مورد نظر به این صفحه دسترسی دارد یا خیر .
6.    در صورت نیاز می توانید تغیرات لازم را در فایل خود انجام دهید و در  ابزار بررسی نتایج را بررسی کنید .
7.    درصورتی که نتایج با انتظارات شما مطابقت داشت می توانید فایل را دوباره بر روی هاست خود بارگزاری کنید .
محدودیت های ابزار بررسی
•    تغییرات شما در ویرایشگر ابزار بررسی robots.txt  به صورت خودکار در سایت شما تغییر نمی کند و نیاز به بارگزاری مجدد بر روی هاست شما  می باشد .
•    ابزار بررسی robots.txt  گوگل فقط فایل robots.txt  شما را برای رباتهای گوگل بررسی می کند و برای رباتهای دیگر کاربرد ندارد .

بروز رسانی فایل robots.txt  در گوگل

 
برای بروز رسانی سریعتر فایل robots.txt   می توانید مراحل زیر را دنبال کنید  :
1.    بر روی گزینه ی submit   در قسمت پایینی ویرایشگر robots.txt  کلیک کنید .
2.    با کلیک بر روی گزینه ی  download  کد های موجود در ویراشگر ابزار بررسی robots.txt  را دانلود کنید .
3.    فایل دانلود شده را بر روی شاخه ی اصلی(root) سایت خود آپلود کنید .
4.    روی گزینه یVerify live version برای نمایش robots.txt   سایت خود کلیک کنید .
5.    بر روی گزینه ی  Submit live version  کلیک کنید . با این کار به گوگل اطلاع می دهید که robots.txt  شما به روز رسانی شده است .
6.    مرورگر خود را رفرش کنید ، سپس روی گزینه latest version  کلیک کنید تا آخرین ورژن robots.txt  را مشاهده کنید .



نام را وارد کنید
تعداد کاراکتر باقیمانده: 1000
نظر خود را وارد کنید