Robot.txt چیست؟

یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار میگیرد. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها یا با تعریفی دقیقتر، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شده اند میباشد.
این که فایل در روت اصلی هاست قرار میگیرد بطوری که با وارد کرد آدرس سایت خود و نام این فایل میتوانید به آن دسترسی داشته باشید. مثال www.yourwebsite.ir/robots.txt
با درج دستوراتی خاص در این فایل، شما میتوانید به رباتهای موتورهای جستجو بگوئید که کدام صفحات، کدام فایلها و کدام بخشهای سایت شما را دیده و آنها را ایندکس کنند و کدام صفحات را نادیده بگیرند. به عبارت دیگر، اولین چیزی که رباتهای موتورهای جستجو با آن برخورد میکنند، همین فایل Robots.txt است. به محض رویارویی با این فایل، خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخشهای قابل دسترسی را پیدا کنند.
تمام فعالیت ها و اقدامات بهینه سازی که بر روی سایت انجام می دهیم باید توسط ربات های گوگل ایندکس شود تا اثر گذاری آن بر رتبه بندی سایت مشخص شود و در نتایج در رتبه های بهتری قرار بگیرد.به همین دلیل باید گوگل را به نحوی هدایت کنیم که صفحات سایت ما به صورت صحیح و طبق برنامه ایی که برای سئو سایت داریم ایندکس شود.
اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی میافتد؟
اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.
اگر فایل robots.txt به درستی تهیه و آپلود نشود چه میشود؟
نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، رباتهای موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و میتوانند آنها را ایندکس کنند. به عبارت دیگر، رباتها فقط زمانی تغییر رفتار میدهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آنها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخشهای سایت ادامه خواهند داد.
برخی از مهمترین دلایل استفاده از robots.txt
1. با کمک این فایل میتوان دسترسی موتورهای جستجو را مدیریت کرد
محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایلها و محتوای انتخابی سایتها رایجترین دلیل استفاده از فایل robots.txt است.
اگر برای شما این سؤال پیش آمده است که چرا باید بعضی از صفحات یا فایلها را ایندکس نکنیم، در جواب باید گفت که در بسیاری از موارد، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو میتواند نتایج نامناسبی به همراه داشته باشد.
به عنوان مثال شاید یک وبمستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند.
این مطلب ممکن است از لحاظ بعضی شرایطی، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد. در این صورت میتوان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایلها را محدود کرد.
2. عدم استفاده از فایل robots.txt میتواند به افت عملکرد بهینه سایت دامن بزند
وبسایتهای فعال به ویژه وبسایتهای پربازدید و بزرگ، روزانه هزاران بار توسط رباتهای گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار میگیرند.
هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحلهای (بررسی و سپس ایندکس) اقدام به جمعآوری اطلاعات از سایتها میکند. این فرآیند شامل بررسی تمام بخشهای سایت شما است.
حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمعآوری اطلاعات از سایت شما میکنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحتالشعاع قرار خواهد گرفت.
بدیهی ست که رفت و آمد این حجم از رباتها میتواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. البته اگرچه این موضوع برای سایتهایی که بازدید کمتری دارند بسیار کمتر به چشم میآید اما برای سایتهای پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این رباتها نیز ممکن است دردسرساز باشد.
در این مواقع اغلب وبمسترها به راحتی و با استفاده از robots.txt دسترسی رباتهای موتورهای جستجو را به بخشهای مختلف و مشخص شدهای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود میکنند. در این حالت نه تنها سرور سایت با ترافیک سبکتری فعالیت خواهد کرد، بلکه مراحل بررسی و جمعآوری اطلاعات و سپس ایندکس کردن آنها توسط رباتها نیز به مقدار بسیار زیادی سریعتر خواهد شد.
3. استفاده از فایل robots.txt میتواند در مدیریت لینکها کاربردی باشد
از دیگر مزایای استفاده از robots.txt امکان مدیریت لینکها و آدرس صفحات (URL) است. در بحث سئو مسئلهای با عنوان مخفیسازی آدرس صفحات یا URL Cloacking وجود دارد. این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است. با کمک robots.txt میتوان این مدل لینکها را مدیریت کرده و آدرس آنها را پنهان کرد.
بیشترین کاربرد این مورد در استفاده از لینکهای مربوط به بحث “سیستم همکاری در فروش” یا “Affiliate Marketing” میباشد. در این حالت، شما میتوانید لینکهای ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته میشوند را مدیریت کرده و آدرس آنها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آنها شوند.
توجه کنید که این تکنیک فقط باید توسط افراد حرفهای انجام شود. چراکه URL Cloacking یکی از تکنیکهای سئوی کلاه سیاه است و در صورتی که به درستی آن را پیادهسازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمههای گوگل خواهید شد.
آشنایی با دستورات فایل robots.txt و کاربرد آنها
فایل robots.txt سایت شما از دو فرمان کلی پیروی میکند که برای ربات گوگل GoogleBot یک دستور دیگر نیز اضافه میشود.با بهکارگیری این دو دستور، شما قادر خواهید بود قوانین مختلفی را راستای دسترسی رباتهای خزندهٔ موتورهای جستجوگر برای ورود به سایتتان وضع کنید. این قوانین عبارتاند از:
User-agent
این دستور برای هدفگیری یک ربات خاص بهکاربرده میشود. این دستور را میتوان به دو شکل در فایل robots.txt به کاربرد.اگر میخواهید به تمام رباتهای خزنده یک دستور را بدهید، فقط کافی است بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر:
* : User-agent
دستور بالا به این معنا است که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل میکند”.
اما اگر میخواهید تنها به یک ربات خاص مانند ربات گوگل GoogleBot دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:
User-agent: Googlebot
کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.
Disallow
دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند.
برای مثال اگر مایل نیستید موتورهای جستجو، تصاویر سایت شمارا ایندکس کنند، میتوانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کردهاید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:
* :User-agent
Disallow: /photos
با واردکردن دو خط کد بالا در فایل robots.txt، به هیچیک از رباتهای جستجوگر اجازه ورود به فولدر تصاویر سایت را نمیدهد. در کد دستوری بالا، قسمت “User-agent: *” بیانگر این است که اجرای این دستور برای تمامی رباتهای جستجو ضروری است. قسمت “Disallow: /photos” میگوید که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.
Allow
موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد. این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند.
دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟
در مثال قبل رشته کدی را قراردادیم که به رباتهای جستجو، اجازه دسترسی به تصاویر سایت را نمیداد. تمام تصاویر سایت را درون یک پوشه به نام Photos قراردادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:
* :User-agent
Disallow: /photos
حال تصور کنید درون این پوشهٔ ما که در هاستینگ سایت قرار دارد، تصویری به نام seo.png وجود دارد که میخواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow میتوانیم به ربات گوگل بگوییم که این کار را انجام دهد:
Crawl-delay
شما قادر هستید تا با درج دستورالعمل Crawl-delay یا نرخ تأخیر، رباتهای موتورهای جستجو را مجبور کنید تا برای بررسی و ایندکس کردن صفحات شما به نوبت، به مقدار زمان مشخص شده توسط شما صبر کنند. البته قابل ذکر است که این دستورالعمل روی بعضی از رباتها از جمله مهمترین آنها ربات گوگل یا Googlebot قابل استفاده نیست. برای اینکه این قابلیت را در ربات گوگل نیز فعال کنید، میتوانید از کنسول جستجوی گوگل (Google Search Console) نرخ زمان مربوط به این مورد را برای ربات گوگل از بخش تنظیمات سایت (Site Settings) تغییر دهید.
هدف از این کار کاهش تعداد درخواستهای پیاپی رباتها به سرور سایت شما است. چنین اقدامی به تسهیل فرآیندهای ایندکس شدن کمک زیادی میکند. برای استفاده از این دستور میتوانید در فایل متنی robots.txt متن زیر را قرار دهید :
crawl-delay: 10
با قرار دادن این کد در robots.txt شما درواقع به رباتهای موتورهای جستجویی همچون Yahoo و Bing اعلام میکنید که بعد از هر یک ایندکس، 10 ثانیه صبر کرده و مجدداً صفحه دیگری را ایندکس کنند. این کد برای موتور جستجوی Yandex با کمی تفاوت عمل میکند. با درج این دستور در robots.txt موتور جستجوی Yandex هر 10 ثانیه یک بار به کل صفحات سایت دسترسی پیدا خواهد کرد. با تغییر عدد 10 به دیگر اعداد، میتوانید مدت زمان مربوطه را کم یا زیاد کنید.
نکته: توجه کنید که استفاده از دستورالعمل crawl-delay ممکن است در همه حالات نتیجه مناسب به همراه نداشته باشد. به عنوان مثال اگر شما نرخ تأخیر رباتها را روی ده ثانیه قرار دهید، موتورهای جستجو به صورت روزانه میتوانند فقط نزدیک به 8600 صفحه از سایت شما را بررسی و ایندکس کنند. اگرچه این مقدار برای سایتهای نه چندان بزرگ مقدار کمی نیست، اما برای سایتهایی که صفحات زیاد و محتوای متعددی دارند اقدام مناسبی نمیباشد. بنابراین قبل از استفاده از این مورد به این مسئله دقت کافی را داشته باشید.
Sitemap
با تعیین دستور مربوط به نقشه سایت در robots.txt میتوانید به موتورهای جستجو بفهمانید که فایل XML نقشه سایت شما را از چه مسیری پیدا کرده و به آن دسترسی داشته باشند. اگرچه برای ثبت کردن نقشه سایت در موتورهای جستجو ابزارهای انحصاری خاصی وجود دارد، ولی این راه نیز یکی از روشهای ساده و کم دردسر برای این مسئله است.
البته تحت هر شرایطی، استفاده از ابزارهای وبمستری موتورهای جستجو مثل Google Webmaster Tools اولویت بسیار بیشتری خواهد داشت. اما اگر تصمیم به انتخاب راه سادهتر دارید، کافیست کد دستوری زیر را در فایل robots.txt اضافه کنید :
Sitemap: https://example.com/sitemap.xml
همانطور که پیداست، باید مثل نمونه بالا، آدرس دقیق نقشه سایت خود را به صورت صحیح در این لاین وارد کنید.
چطور یک فایل robots.txt بسازیم؟
قبل از ساخت این فایل، اول مطمئن شوید که پیش از این چنین فایلی در سرور سایت شما ایجاد نشده باشد. برای اینکه از این مورد آگاه شوید، کافیست آدرس سایت خود را وارد کرده و در انتهای آن /robots.txt را تایپ کرده و اینتر بزنید.
چطور یک فایل Robots.txt در وردپرس ایجاد کنیم؟
دو راه برای ساخت و ویرایش فایل Robots.txt در وردپرس وجود دارد که بهدلخواه، هرکدام را که میخواهید میتوانید انتخاب کنید.
روش اول: ساخت و ویرایش فایل Robots.txt توسط افزونه Yoast SEO
اگر از افزونه Yoast SEO استفاده میکنید، پس میتوانید از تولیدکننده فایل Robots.txt این افزونه نیز استفاده کنید. شما میتوانید با استفاده از ادیتور Robotx.txt این افزونه، فایل Robots.txt برای سایت خود ایجاد کرده و آن را ویرایش کنید.
کافی است از قسمت پیشخوان وردپرس وارد بخش سئو > ابزارها شوید و بر روی ویرایشگر فایل کلیک کنید این ابزار به شما این امکان را میدهد که بهسرعت پروندههای مهم سئو مانند فایل robots.txt و.htaccess را بهسادگی تغییر دهید.
روش دوم: ویرایش فایل Robots.txt بهصورت دستی با استفاده از FTP
در این روش شما نیاز به یک سرویسگیرنده FTP برای ویرایش فایل Robots.txt دارید.به هاست وردپرس سایت خود با استفاده از یک گیرنده FTP متصل شوید.
اگر شما فایلی بانام Robots.txt مشاهده نمیکنید، به این معناست که سایت شما آن فایل را ندارد. اما نگران نباشید، خیلی ساده یک فایل ایجاد کنید و نام آن را robots.txt قرار دهید.
دو نکته در مورد سیستم مدیریت محتوای WordPress وجود دارد که باید بدانید:
نکته اول:
در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی رباتها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیشفرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی (disallow) گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکسهای موتورهای جستجو حذف میشود.
نکته دوم:
سیستم مدیریت محتوای WordPress به صورت پیشفرض یک فایل robots.txt دارد که از این فایل با نام فایل مجازی robots.txt یا Virtual robots.txt یاد میشود. این به این معنی است که شما نمیتوانید به صورت مستقیم این فایل را پیدا کرده و آن را ویرایش کنید. تنها راهی که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگرها (http://www.example.com/robots.txt) است.
دستورالعملهای پیشفرض موجود در فایل robots.txt مجازی در وردپرس شامل موارد زیر است :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
در این حالت رباتها به صفحه admin-ajax.php دسترسی دارند. اگر میخواهید بدون دستکاری خاصی این حالت را نیز غیرفعال کنید، باید به تنظیمات وردپرس در صفحه wp-admin رفته و گزینه Search Engine Visibility را فعال کنید تا دسترسی تمامی رباتها به سایت شما مسدود شوند.
نتیجه گیری:
باید توجه داشته باشید که استفاده نادرست از فایل robots.txt میتواند به ضرر سایت شما تمام شود. بنابراین قبل از انجام هرگونه تغییرات اساسی در این فایل حتماً با یک متخصص سئو مشورت کنید و کدهای واردشده را چند بار موردسنجش و بازنویسی قرار دهید.
منبع: سایت ایران پرو وب