robot txt چیست و چه کاربردی در سئو سایت دارد؟

دوشنبه ۴ فروردین ۱۳۹۹ ساعت 20:2 توسط مصطفی کشوری | | چاپ مطلب | |

Robot.txt چیست؟

robots.txt

یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار می‌گیرد. در حقیقت وظیفه این فایل معرفی بخش‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها یا با تعریفی دقیق‌تر، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایت‌ها ایجاد شده اند می‌باشد.

این که فایل در روت اصلی هاست قرار میگیرد بطوری که با وارد کرد آدرس سایت خود و نام این فایل میتوانید به آن دسترسی داشته باشید. مثال www.yourwebsite.ir/robots.txt

با درج دستوراتی خاص در این فایل، شما می‌توانید به ربات‌های موتورهای جستجو بگوئید که کدام صفحات، کدام فایل‌ها و کدام بخش‌های سایت شما را دیده و آن‌ها را ایندکس کنند و کدام صفحات را نادیده بگیرند. به عبارت دیگر، اولین چیزی که ربات‌های موتورهای جستجو با آن برخورد می‌کنند، همین فایل Robots.txt است. به محض رویارویی با این فایل، خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخش‌های قابل دسترسی را پیدا کنند.

تمام فعالیت ها و اقدامات بهینه سازی که بر روی سایت انجام می دهیم باید توسط ربات های گوگل ایندکس شود تا اثر گذاری آن بر رتبه بندی سایت مشخص شود و در نتایج در رتبه های بهتری قرار بگیرد.به همین دلیل باید گوگل را به نحوی هدایت کنیم که صفحات سایت ما به صورت صحیح و طبق برنامه ایی که برای سئو سایت داریم ایندکس شود.

اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی می‌افتد؟

اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و ربات‌های موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.

اگر فایل robots.txt به درستی تهیه و آپلود نشود چه می‌شود؟

نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، ربات‌های موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و می‌توانند آن‌ها را ایندکس کنند. به عبارت دیگر، ربات‌ها فقط زمانی تغییر رفتار می‌دهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آن‌ها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخش‌های سایت ادامه خواهند داد.

برخی از مهم‌ترین دلایل استفاده از robots.txt

1. با کمک این فایل می‌توان دسترسی موتورهای جستجو را مدیریت کرد

محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایل‌ها و محتوای انتخابی سایت‌ها رایج‌ترین دلیل استفاده از فایل robots.txt است.

اگر برای شما این سؤال پیش آمده است که چرا باید بعضی از صفحات یا فایل‌ها را ایندکس نکنیم، در جواب باید گفت که در بسیاری از موارد، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو می‌تواند نتایج نامناسبی به همراه داشته باشد.

به عنوان مثال شاید یک وب‌مستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند.

این مطلب ممکن است از لحاظ بعضی شرایطی، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد. در این صورت می‌توان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایل‌ها را محدود کرد.

2. عدم استفاده از فایل robots.txt می‌تواند به افت عملکرد بهینه سایت دامن بزند

وب‌سایت‌های فعال به ویژه وب‌سایت‌های پربازدید و بزرگ، روزانه هزاران بار توسط ربات‌های گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار می‌گیرند.

هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحله‌ای (بررسی و سپس ایندکس) اقدام به جمع‌آوری اطلاعات از سایت‌ها می‌کند. این فرآیند شامل بررسی تمام بخش‌های سایت شما است.

حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمع‌آوری اطلاعات از سایت شما می‌کنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحت‌الشعاع قرار خواهد گرفت.

بدیهی ‌ست که رفت و آمد این حجم از ربات‌ها می‌تواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. البته اگرچه این موضوع برای سایت‌هایی که بازدید کمتری دارند بسیار کمتر به چشم می‌آید اما برای سایت‌های پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این ربات‌ها نیز ممکن است دردسرساز باشد.

در این مواقع اغلب وب‌مسترها به راحتی و با استفاده از robots.txt دسترسی ربات‌های موتورهای جستجو را به بخش‌های مختلف و مشخص شده‌ای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود می‌کنند. در این حالت نه تنها سرور سایت با ترافیک سبک‌تری فعالیت خواهد کرد، بلکه مراحل بررسی و جمع‌آوری اطلاعات و سپس ایندکس کردن آن‌ها توسط ربات‌ها نیز به مقدار بسیار زیادی سریع‌تر خواهد شد.

3. استفاده از فایل robots.txt می‌تواند در مدیریت لینک‌ها کاربردی باشد

از دیگر مزایای استفاده از robots.txt امکان مدیریت لینک‌ها و آدرس صفحات (URL) است. در بحث سئو مسئله‌ای با عنوان مخفی‌سازی آدرس صفحات یا URL Cloacking وجود دارد. این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است. با کمک robots.txt می‌توان این مدل لینک‌ها را مدیریت کرده و آدرس آن‌ها را پنهان کرد.

بیشترین کاربرد این مورد در استفاده از لینک‌های مربوط به بحث “سیستم همکاری در فروش” یا “Affiliate Marketing” می‌باشد. در این حالت، شما می‌توانید لینک‌های ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته می‌شوند را مدیریت کرده و آدرس آن‌ها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آن‌ها شوند.

توجه کنید که این تکنیک فقط باید توسط افراد حرفه‌ای انجام شود. چراکه URL Cloacking یکی از تکنیک‌های سئوی کلاه سیاه است و در صورتی که به درستی آن را پیاده‌سازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمه‌های گوگل خواهید شد.

آشنایی با دستورات فایل robots.txt و کاربرد آن‌ها

فایل robots.txt سایت شما از دو فرمان کلی پیروی می‌کند که برای ربات گوگل GoogleBot یک دستور دیگر نیز اضافه می‌شود.با به‌کارگیری این دو دستور، شما قادر خواهید بود قوانین مختلفی را راستای دسترسی ربات‌های خزندهٔ موتورهای جستجوگر برای ورود به سایت‌تان وضع کنید. این قوانین عبارت‌اند از:

User-agent

این دستور برای هدف‌گیری یک ربات خاص به‌کاربرده می‌شود. این دستور را می‌توان به دو شکل در فایل robots.txt به کاربرد.اگر می‌خواهید به تمام ربات‌های خزنده یک دستور را بدهید، فقط کافی است بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر:

* : User-agent

دستور بالا به این معنا است که “دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌کند”.
اما اگر می‌خواهید تنها به یک ربات خاص مانند ربات گوگل GoogleBot دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:

User-agent: Googlebot

کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.

Disallow

دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحه‌ای است که می‌خواهید از دید روبات‌ها پنهان بماند.
برای مثال اگر مایل نیستید موتورهای جستجو، تصاویر سایت شمارا ایندکس کنند، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید.فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کرده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:

* :User-agent
Disallow: /photos

با واردکردن دو خط کد بالا در فایل robots.txt، به هیچ‌یک از ربات‌های جستجوگر اجازه ورود به فولدر تصاویر سایت را نمی‌دهد. در کد دستوری بالا، قسمت “User-agent: *” بیانگر این است که اجرای این دستور برای تمامی ربات‌های جستجو ضروری است. قسمت “Disallow: /photos” می‌گوید که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.

Allow

موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروف‌ترین آن‌ها بانام Googlebot شناخته می‌شود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد. این ربات نسبت به سایر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند.

دستور Allow به شما امکان می‌دهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟

در مثال قبل رشته کدی را قراردادیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قراردادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:

* :User-agent
Disallow: /photos

حال تصور کنید درون این پوشهٔ ما که در هاستینگ سایت قرار دارد، تصویری به نام seo.png وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که این کار را انجام دهد:

Crawl-delay

شما قادر هستید تا با درج دستورالعمل Crawl-delay یا نرخ تأخیر، ربات‌های موتورهای جستجو را مجبور کنید تا برای بررسی و ایندکس کردن صفحات شما به نوبت، به مقدار زمان مشخص شده توسط شما صبر کنند. البته قابل ذکر است که این دستورالعمل روی بعضی از ربات‌ها از جمله مهمترین آن‌ها ربات گوگل یا Googlebot قابل استفاده نیست. برای اینکه این قابلیت را در ربات گوگل نیز فعال کنید، می‌توانید از کنسول جستجوی گوگل (Google Search Console) نرخ زمان مربوط به این مورد را برای ربات گوگل از بخش تنظیمات سایت (Site Settings) تغییر دهید.

هدف از این کار کاهش تعداد درخواست‌های پیاپی ربات‌ها به سرور سایت شما است. چنین اقدامی به تسهیل فرآیندهای ایندکس شدن کمک زیادی می‌کند. برای استفاده از این دستور می‌توانید در فایل متنی robots.txt متن زیر را قرار دهید :

crawl-delay: 10

با قرار دادن این کد در robots.txt شما درواقع به ربات‌های موتورهای جستجویی همچون Yahoo و Bing اعلام می‌کنید که بعد از هر یک ایندکس، 10 ثانیه صبر کرده و مجدداً صفحه دیگری را ایندکس کنند. این کد برای موتور جستجوی Yandex با کمی تفاوت عمل می‌کند. با درج این دستور در robots.txt موتور جستجوی Yandex هر 10 ثانیه یک بار به کل صفحات سایت دسترسی پیدا خواهد کرد. با تغییر عدد 10 به دیگر اعداد، می‌توانید مدت زمان مربوطه را کم یا زیاد کنید.

نکته: توجه کنید که استفاده از دستورالعمل crawl-delay ممکن است در همه حالات نتیجه مناسب به همراه نداشته باشد. به عنوان مثال اگر شما نرخ تأخیر ربات‌ها را روی ده ثانیه قرار دهید، موتورهای جستجو به صورت روزانه می‌توانند فقط نزدیک به 8600 صفحه از سایت شما را بررسی و ایندکس کنند. اگرچه این مقدار برای سایت‌های نه چندان بزرگ مقدار کمی نیست، اما برای سایت‌هایی که صفحات زیاد و محتوای متعددی دارند اقدام مناسبی نمی‌باشد. بنابراین قبل از استفاده از این مورد به این مسئله دقت کافی را داشته باشید.

Sitemap

با تعیین دستور مربوط به نقشه سایت در robots.txt می‌توانید به موتورهای جستجو بفهمانید که فایل XML نقشه سایت شما را از چه مسیری پیدا کرده و به آن دسترسی داشته باشند. اگرچه برای ثبت کردن نقشه سایت در موتورهای جستجو ابزارهای انحصاری خاصی وجود دارد، ولی این راه نیز یکی از روش‌های ساده و کم دردسر برای این مسئله است.

البته تحت هر شرایطی، استفاده از ابزارهای وب‌مستری موتورهای جستجو مثل Google Webmaster Tools اولویت بسیار بیشتری خواهد داشت. اما اگر تصمیم به انتخاب راه ساده‌تر دارید، کافیست کد دستوری زیر را در فایل robots.txt اضافه کنید :

Sitemap: https://example.com/sitemap.xml

همانطور که پیداست، باید مثل نمونه بالا، آدرس دقیق نقشه سایت خود را به صورت صحیح در این لاین وارد کنید.

چطور یک فایل robots.txt بسازیم؟

قبل از ساخت این فایل، اول مطمئن شوید که پیش از این چنین فایلی در سرور سایت شما ایجاد نشده باشد. برای اینکه از این مورد آگاه شوید، کافیست آدرس سایت خود را وارد کرده و در انتهای آن /robots.txt را تایپ کرده و اینتر بزنید.

چطور یک فایل Robots.txt در وردپرس ایجاد کنیم؟

دو راه برای ساخت و ویرایش فایل Robots.txt در وردپرس وجود دارد که به‌دلخواه، هرکدام را که می‌خواهید می‌توانید انتخاب کنید.

روش اول: ساخت و ویرایش فایل Robots.txt توسط افزونه Yoast SEO

اگر از افزونه Yoast SEO استفاده می‌کنید، پس می‌توانید از تولیدکننده فایل Robots.txt این افزونه نیز استفاده کنید. شما می‌توانید با استفاده از ادیتور Robotx.txt این افزونه، فایل Robots.txt برای سایت خود ایجاد کرده و آن را ویرایش کنید.
کافی است از قسمت پیشخوان وردپرس وارد بخش سئو > ابزارها شوید و بر روی ویرایشگر فایل کلیک کنید این ابزار به شما این امکان را می‌دهد که به‌سرعت پرونده‌های مهم سئو مانند فایل robots.txt و.htaccess را به‌سادگی تغییر دهید.

روش دوم: ویرایش فایل Robots.txt به‌صورت دستی با استفاده از FTP

در این روش شما نیاز به یک سرویس‌گیرنده FTP برای ویرایش فایل Robots.txt دارید.به هاست وردپرس سایت خود با استفاده از یک گیرنده FTP متصل شوید.

اگر شما فایلی بانام Robots.txt مشاهده نمی‌کنید، به این معناست که سایت شما آن فایل را ندارد. اما نگران نباشید، خیلی ساده یک فایل ایجاد کنید و نام آن را robots.txt قرار دهید.

دو نکته در مورد سیستم مدیریت محتوای WordPress وجود دارد که باید بدانید:

نکته اول:

در گذشته پیشنهاد میشد که صفحه پنل مدیریتی وردپرس یا همان wp-admin را از طریق فایل robots.txt برای دسترسی ربات‌ها مسدودسازی کنیم. اما بعد از بروزرسانی وردپرس در سال 2012 این مسئله دیگر اهمیتی نداشت. چرا که وردپرس در سیستم جدید خود قابلیتی پیش‌فرض به تگ هدر فایل robots.txt اضافه کرده بود که در آن تگ noindex و دستور مسدودسازی دسترسی (disallow) گنجانده شده بود. بنابراین در حال حاضر بدون نیاز به مورد خاصی، صفحه مدیریتی پنل سایت شما به صورت خودکار از لیست ایندکس‌های موتورهای جستجو حذف می‌شود.

نکته دوم:

سیستم مدیریت محتوای WordPress به صورت پیش‌فرض یک فایل robots.txt دارد که از این فایل با نام فایل مجازی robots.txt یا Virtual robots.txt یاد می‌شود. این به این معنی است که شما نمی‌توانید به صورت مستقیم این فایل را پیدا کرده و آن را ویرایش کنید. تنها راهی که بتوان این فایل را مشاهده کرد باز کردن آدرس مستقیم آن در مرورگرها (http://www.example.com/robots.txt) است.

دستورالعمل‌های پیش‌فرض موجود در فایل robots.txt مجازی در وردپرس شامل موارد زیر است :

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

در این حالت ربات‌ها به صفحه admin-ajax.php دسترسی دارند. اگر می‌خواهید بدون دستکاری خاصی این حالت را نیز غیرفعال کنید، باید به تنظیمات وردپرس در صفحه wp-admin رفته و گزینه Search Engine Visibility را فعال کنید تا دسترسی تمامی ربات‌ها به سایت شما مسدود شوند.

نتیجه گیری:

باید توجه داشته باشید که استفاده نادرست از فایل robots.txt می‌تواند به ضرر سایت شما تمام شود. بنابراین قبل از انجام هرگونه تغییرات اساسی در این فایل حتماً با یک متخصص سئو مشورت کنید و کدهای واردشده را چند بار موردسنجش و بازنویسی قرار دهید.

منبع: سایت ایران پرو وب

برچسب ها :

بهینه سازی سایت | آموزش سئو سایت

انجام خدمات بهینه‌سازی سایت برای موتورهای جست‌وجو