Robots.txt یک فایل متنی ساده است که دسترسی خزندههای موتور جستجو را به برخی URLها یا دایرکتوریهای سایت مسدود میکند. مالک سایت این فایل را ایجاد میکند و در فهرست اصلی سایت قرار میدهد. با انجام این کار از نمایش صفحات بیاهمیت سایت در نتایج جستجو جلوگیری میشود.
هر اشتباهی که در تنظیم فایل robots.txt مرتکب شوید میتواند به سایت شما آسیب جدی وارد کند. بنابراین، قبل از ایجاد این فایل حتما مقاله زیر را مطالعه کنید.
فایل robots.txt حاوی دستورالعملهایی برای خزنده موتورهای جستجو است و نحوه رفتار آنها را کنترل میکند. باوجود اینکه فایل Robots.txt یک استاندارد رسمی به شمار نمیرود. اما، تقریبا تمام موتورهای جستجو اصلی به آن پایبند هستند. درست است که همه موتورهای جستجوی اصلی به فایل robots.txt احترام میگذارند، اما ممکن است بخشهایی از این فایل را نادیده بگیرند.
اجباری برای پیروی از دستورالعملهایRobots.txt وجود ندارد، اما تنظیم آن میتواند در هدایت رباتهای موتور جستجو و فرآیند سئو سایت بسیار موثر باشد. علاوهبر این، سبب مدیریت بودجه خزیدن شده و از هدر رفتن وقت موتورهای جستجو برای کراول و ایندکس صفحات بیاهمیت جلوگیری میکند.
موتورهای جستجو بهطور مرتب فایل robots.txt یک سایت را بررسی میکنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. اگر فایل Robots.txt وجود نداشته باشد، رباتهای موتور جستجو کل وبسایت را میخزند.
با خزیدن ربات موتورهای جستجو، صفحات وب پیدا شده و ایندکس میشوند. رباتها با خزیدن در صفحات یک وبسایت، پیوندهای موجود در این صفحات را دنبال میکنند. بنابراین، میتوانند از یک سایت به سایت دیگر منتقل شوند.
قبل از اینکه ربات موتور جستجو آدرس صفحه موجود در پیوندها را دنبال کند، ابتدا از فایل Robots.txt آن دامنه بازدید میکند. دستورات موجود در این فایل کمک میکند تا رباتها بدانند اجازه دسترسی به کدام صفحه وبسایت را دارند و مجاز به بازدید از کدام یک نیستند. این دستورالعملها صرفا برای راهنمایی رباتها مورد استفاده قرار میگیرد و ممکن است توسط برخی از آنها نادیده گرفته شوند.
سئو تکنیکال: جامعترین راهنمای سئو فنی
فایل robots.txt همیشه باید در ریشه اصلی سایت شما باشد. بنابراین، اگر دامنه شما www.example.com است، خزنده موتور جستجو باید فایل را در آدرس https://www.example.com/robots.txt پیدا کند. اگر در روت اصلی سایت خود ساب دامینهای دیگری نیز دارید، هر کدام از آنها به طور خاص به این فایل نیازمند هستند. ازطرفدیگر پروتکل robots.txt به حروف کوچک و بزرگ حساس است. بنابراین، درصورتیکه نام فایل را به صورت Robots.txt بنویسید، برایتان کار نمیکند.
بهطور پیش فرض، وردپرس یک فایل robots.txt با محتویات زیر تولید میکند:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
شما میتوانید محتوای این فایل را با افزونه Yoast SEO ویرایش کنید و دستورات آن را به صورت زیر تغییر دهید.
User-agent: *
Disallow:
Sitemap: https://www.example.com/sitemap_index.xml
دستورالعملهای فوق به ربات موتورهای جستجو اجازه میدهد تا در کل سایت بخزند. علاوهبر این، با اضافه کردن لینک نقشه سایت، موتورهای جستجو از جمله گوگل میتوانند با کارایی بیشتری صفحات سایت را پیدا کرده و کراول کنند.
این تنها یکی از روشهای استفاده از فایل Robots.txt است. در ادامه مقاله به توضیح بیشتری در مورد جزئیات فایل متنی robots.txt و نحوه استفاده از دستورالعملهای آن میپردازیم.
فایل robots.txt به موتورهای جستجو میگوید که به چه URL هایی دسترسی نداشته باشند
سادهترین راه برای ایجاد یا ویرایش فایل robots.txt از طریق افزونه Yoast SEO در داشبورد وردپرس است. برای انجام این کار ابتدا وارد وب سایت وردپرسی خود شوید و در منوی مدیریت، روی گزینه Yoast SEO کلیک کنید. سپس گزینه Toolsرا انتخاب کرده و روی ویرایشگر فایل (File editor) کلیک کنید.
اگر وردپرس ویرایش فایل را غیر فعال کرده باشد، این منو ظاهر نمیشود. بنابراین، یا باید ویرایش فایل را فعال کنید یا از طریق FTP آن را ویرایش کنید. در مرحله بعدی لازم است روی دکمه ایجاد فایل robots.txt کلیک کنید. سپس دستورالعملهایی را مشاهده میکنید که توسط افزونه Yoast SEO به این فایل اضافه شده است. در ادامه میتوانید فایل را ویرایش کرده و ذخیره کنید.
اگر وردپرس ویرایش فایل robots.txt را غیرفعال کرده باشد، ممکن است نتوانید با استفاده از افزونه Yoast SEO این فایل را ویرایش کنید. در این صورت میتوانید با استفاده از ویرایشگر متن یک فایل با نام robots.txt بسازید و آن را در روت سایت خود قرار دهید. اگر در آپلود یا ویرایش فایلها روی سرور خود مشکل دارید، با میزبان وب خود تماس بگیرید تا شما را راهنمایی کند.
استفاده از robots.txt برای جلوگیری از دسترسی خزندهها به بخشهای بیکیفیت سایت بسیار مفید است. موارد زیر چند نمونه از صفحاتی هستند که نیازی نیست توسط خزندههای موتور جستجو ایندکس شوند.
چرا وقتی میتوانیم صفحات را با متا تگ «noindex» مسدود کنیم، از robots.txt استفاده میکنیم؟ در پاسخ به این سوال باید بگوییم که پیادهسازی تگ noindex روی منابع چندرسانهای مانند فیلمها و فایلهای PDF دشوار است.
علاوهبر این ممکن است در سایت خود هزاران صفحه داشته باشید که بخواهید آنها را مسدود کنید. در این حالت مسدود کردن تمام صفحات با استفاده از فایل robots.txt، آسانتر از افزودن دستی تگ noindex به هر صفحه است.
بیایید اجزای مختلف فایل robots.txt را با جزئیات بیشتری تجزیهوتحلیل کنیم و 4 دستورالعمل مهم در این فایل را مورد بررسی قرار دهیم. این دستورالعملها شامل موارد زیر است:
User-agent ربات خاصی است که شما با آن صحبت میکنید و میتوانید از یک ستاره (*) برای صحبت با همه رباتها استفاده کنید. مثلا دستورات زیر به ربات گوگل میگوید که پوشه تصاویر وب سایت شما را ایندکس نکند.
User-agent: googlebot
Disallow: /images
هر چیزی بعد از Disallow بیاید صفحات یا بخشهایی است که رباتها اجازه دسترسی به آن را ندارند. بنابراین، دستورDisallow: / دسترسی رباتها را به کل سایت ما مسدود میکند. درصورتیکه در مقابل دستور Disallow چیزی ننویسیم، سبب میشود که رباتهای گوگل به تمام قسمتهای سایت ما دسترسی داشته باشند.
پس اگر قصد دارید تنها قسمتی از محتوای خود را غیر مجاز کنید میتوانید آدرس آن بخش را در مقابل دستور Disallow قرار دهید. مانند مثال زیر:
User-agent: *
Disallow: /wp-admin/
توجه داشته باشید که اگر دایرکتوری را پس از ایندکس شدن آن توسط موتور جستجو غیر مجاز کنید، ممکن است از فهرست آن حذف نشود. بنابراین، برای حذف آن باید سراغ ابزارهای وب مستر موتور جستجو بروید.
ازطرفدیگر موتور جستجو ممکن است آدرس URl یک صفحه غیر مجاز را از طریق پیوندی در سایت دیگر یا نقشه سایت شما پیدا کند. بنابراین، برای اطمینان بیشتر از ایندکس نشدن صفحه مورد نظر، بهتر است از متا تگ noindex در آن صفحه استفاده کنید.
از دستور Allow زمانی استفاده میکنیم که بخواهیم به موتورهای جستجو اجازه استفاده از یک صفحه خاص را بدهیم. این دستور دقیقا نقطه مقابل دستورالعمل Disallow است و توسط Google و Bing پشتیبانی میشود.
اگر مسیری در مقابل این دستورالعمل تعریف نشده باشد، نادیده گرفته میشود. بنابراین، دستور Allow: / به رباتها اجازه میدهد که به صورت کامل به همه چیز دسترسی داشته باشند. بهعنوانمثال دستورالعملهای زیر دسترسی همه موتورهای جستجو به فهرست media را غیر مجاز میکند. بنابراین، تنها فایلی که موتورهای جستجو اجازه دسترسی به آن را دارند، فایل terms.pdf است.
User-agent: *
Allow: /media/terms.pdf
Disallow: /media/
دستور Sitemap برای اضافه کردن نقشه سایت به فایل Robots.txt است و توسط موتورهای جستجوی اصلی پشتیبانی میشود. توصیه میکنیم که همیشه نقشه سایت را به این فایل اضافه کنید، حتی اگر قبلا آن را در کنسول موتور جستجوی خود ارسال کرده باشید. این کار به کمک دستورالعمل زیر انجام میشود.
Sitemap: https://www.example.com/sitemap_index.xml
robots.txt نقش موثری در SEO دارد و کمک میکند تا موتورهای جستجو به بهترین نحو ممکن وب سایت شما کراول و ایندکس کنند. با استفاده از این فایل میتوانید از دسترسی موتورهای جستجو به بخشهای خاصی از وبسایت خود جلوگیری کنید. همچنین از محتوای تکراری جلوگیری کرده و موتورهای جستجو را راهنمایی کنید تا به طور موثری وب سایت شما را کراول کنند.
Robots.txt بهعنوان یک ابزار قدرتمند به صاحبان وبسایت کمک میکند تا دسترسی خزندههای موتور جستجو را مدیریت کنند. شما میتوانید از این فایل برای جلوگیری از خزیدن موتورهای جستجو در بخشهای خاصی از وبسایتتان استفاده کنید.
توصیه ما بهعنوان یک مرکز ارائهدهنده خدمات سئو این است که هنگام ایجاد تغییرات در فایل robots.txt مراقب باشید. چراکه این فایل میتواند بخشهای بزرگی از وبسایت شما را برای موتورهای جستجو غیرقابل دسترس کند. بنابراین، فقط برای صفحاتی از این فایل استفاده کنید که هرگز نباید توسط موتورهای جستجو دیده شوند.