Robots.txt چیست؟

Robots.txt چیست؟

Robots.txt چیست؟

Robots.txt یک فایل متنی ساده است که دسترسی خزنده‌های موتور جستجو را به برخی URLها یا دایرکتوری‌های سایت مسدود می‌کند. مالک سایت این فایل را ایجاد می‌کند و در فهرست اصلی سایت قرار می‌دهد.  با انجام این کار از نمایش صفحات بی‌اهمیت سایت در نتایج جستجو جلوگیری می‌شود.

هر اشتباهی که در تنظیم فایل robots.txt مرتکب شوید می‌تواند به سایت شما آسیب جدی وارد کند. بنابراین، قبل از ایجاد این فایل حتما مقاله زیر را مطالعه کنید.

 

دلیل استفاده از فایل robots.txt چیست؟

فایل robots.txt حاوی دستورالعمل‌هایی برای خزنده‌ موتورهای جستجو است و نحوه رفتار آن‌ها را کنترل می‌کند. با‌وجود این‌که فایل Robots.txt یک استاندارد رسمی به شمار نمی‌رود. اما، تقریبا تمام موتورهای جستجو اصلی به آن پایبند هستند. درست است که همه موتورهای جستجوی اصلی به فایل robots.txt احترام می‌گذارند، اما ممکن است بخش‌هایی از این فایل را نادیده بگیرند.

اجباری برای پیروی از دستورالعمل‌هایRobots.txt  وجود ندارد، اما تنظیم آن می‌تواند در هدایت ربات‌های موتور جستجو و فرآیند سئو سایت بسیار موثر باشد. علاوه‌بر این، سبب مدیریت بودجه خزیدن شده و از هدر رفتن وقت موتورهای جستجو برای کراول و ایندکس صفحات بی‌اهمیت جلوگیری می‌کند.

موتورهای جستجو به‌طور مرتب فایل robots.txt یک سایت را بررسی می‌کنند تا ببینند آیا دستورالعملی برای خزیدن در وب سایت وجود دارد یا خیر. اگر فایل Robots.txt وجود نداشته باشد، ربات‌های موتور جستجو کل وب‌سایت را می‌خزند.

 

فایل Robots.txt چه کاری انجام می‌دهد؟

با خزیدن ربات موتورهای جستجو، صفحات وب پیدا شده و ایندکس می‌شوند. ربات‌ها با خزیدن در صفحات یک وب‌سایت، پیوندهای موجود در این صفحات را دنبال می‌کنند. بنابراین، می‌توانند از یک سایت به سایت دیگر منتقل شوند.

قبل از این‌که ربات موتور جستجو آدرس صفحه موجود در پیوند‌ها را دنبال کند، ابتدا از فایل Robots.txt  آن دامنه بازدید می‌کند. دستورات موجود در این فایل کمک می‌کند تا ربات‌ها بدانند اجازه دسترسی به کدام صفحه وب‌سایت را دارند و مجاز به بازدید از کدام یک نیستند.  این دستورالعمل‌ها صرفا برای راهنمایی ربات‌ها مورد استفاده قرار می‌گیرد و ممکن است توسط برخی از آن‌ها نادیده گرفته شوند.

 

سئو تکنیکال: جامع‌ترین راهنمای سئو فنی

فایل robots.txt  را کجا قرار دهیم؟

فایل robots.txt همیشه باید در ریشه اصلی سایت شما باشد. بنابراین، اگر دامنه شما www.example.com است، خزنده موتور جستجو باید فایل را در آدرس https://www.example.com/robots.txt  پیدا کند. اگر در روت اصلی سایت خود ساب دامین‌های دیگری نیز دارید، هر کدام از آن‌ها به طور خاص به این فایل نیازمند هستند. از‌طرف‌دیگر پروتکل robots.txt  به حروف کوچک و بزرگ حساس است. بنابراین، در‌صورتی‌که نام فایل را به صورت Robots.txt بنویسید، برایتان کار نمی‌‌کند.

 

ایجاد Robots.txt در وردپرس

به‌طور پیش فرض، وردپرس یک فایل robots.txt با محتویات زیر تولید می‌کند:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

شما می‌توانید محتوای این فایل را با افزونه  Yoast SEO ویرایش کنید و دستورات آن را به صورت زیر تغییر دهید.

User-agent: *

Disallow:

Sitemap: https://www.example.com/sitemap_index.xml

دستورالعمل‌های فوق به ربات‌ موتورهای جستجو اجازه می‌دهد تا در کل سایت بخزند. علاوه‌بر این، با اضافه کردن لینک نقشه سایت، موتورهای جستجو از جمله گوگل می‌توانند با کارایی بیشتری صفحات سایت را پیدا کرده و کراول کنند.

این تنها یکی از روش‌های استفاده از فایل Robots.txt  است. در ادامه مقاله به توضیح بیشتری در مورد جزئیات فایل متنی robots.txt و نحوه استفاده از دستورالعمل‌های آن می‌پردازیم.

فایل robots.txt به موتورهای جستجو می‌گوید که به چه URL هایی دسترسی نداشته باشند

 

نحوه ویرایش فایل robots.txt در افزونه Yoast SEO

ساده‌ترین راه برای ایجاد یا ویرایش فایل robots.txt از طریق افزونه Yoast SEO در داشبورد وردپرس است. برای انجام این کار ابتدا وارد وب سایت وردپرسی خود شوید و در منوی مدیریت، روی گزینه Yoast SEO  کلیک کنید. سپس گزینه  Toolsرا انتخاب کرده و روی ویرایشگر فایل (File editor) کلیک کنید.

اگر وردپرس ویرایش فایل را غیر فعال کرده باشد، این منو ظاهر نمی‌شود. بنابراین، یا باید ویرایش فایل را فعال کنید یا از طریق FTP آن را ویرایش کنید. در مرحله بعدی لازم است روی دکمه ایجاد فایل robots.txt کلیک کنید. سپس دستورالعمل‌هایی را مشاهده می‌کنید که توسط افزونه Yoast SEO به این فایل اضافه شده است. در ادامه می‌توانید فایل را ویرایش کرده و ذخیره کنید.

 

 

بهترین افزونه های سئو وردپرس

ایجاد فایل Robots.txt در سرور سایت

اگر  وردپرس ویرایش فایل robots.txt  را غیرفعال کرده باشد، ممکن است نتوانید با استفاده از افزونه Yoast SEO   این فایل را ویرایش کنید. در این صورت می‌توانید با استفاده از ویرایشگر متن یک فایل با نام robots.txt  بسازید و آن را در روت سایت خود قرار دهید. اگر در آپلود یا ویرایش فایل‌ها روی سرور خود مشکل دارید، با میزبان وب خود تماس بگیرید تا شما را راهنمایی کند.

 

 از ایندکس شدن چه صفحاتی توسط موتور های جستجو جلوگیری کنیم؟

استفاده از robots.txt برای جلوگیری از دسترسی خزنده‌ها به بخش‌های بی‌کیفیت سایت بسیار مفید است. موارد زیر چند نمونه از صفحاتی هستند که نیازی نیست توسط خزنده‌های موتور جستجو  ایندکس شوند.

  • صفحات دسته‌بندی
  • صفحات دارای اطلاعات حساس
  • صفحات جستجوی داخلی
  • صفحات برچسب

 

  Robots.txt در مقابل دستورات متا

چرا وقتی می‌توانیم صفحات را با متا تگ «noindex» مسدود کنیم، از robots.txt استفاده می‌کنیم؟ در پاسخ به این سوال باید بگوییم که پیاده‌سازی تگ noindex روی منابع چندرسانه‌ای مانند فیلم‌ها و فایل‌های PDF  دشوار است.

علاوه‌بر این ممکن است در سایت خود هزاران صفحه داشته باشید که بخواهید آن‌ها را مسدود کنید. در این حالت مسدود کردن تمام صفحات با استفاده از فایل robots.txt، آسان‌تر از افزودن دستی تگ noindex به هر صفحه است.

 

4 دستورالعمل‌ مهم در  فایل robots.txt

بیایید اجزای مختلف فایل‌ robots.txt را با جزئیات بیشتری تجزیه‌و‌تحلیل کنیم و 4 دستور‌العمل مهم در این فایل را مورد بررسی قرار دهیم. این دستورالعمل‌ها شامل موارد زیر است:

1.     دستورالعمل User-agent

User-agent ربات خاصی است که شما با آن صحبت می‌کنید و می‌توانید از یک ستاره (*) برای صحبت با همه ربات‌ها استفاده کنید. مثلا دستورات زیر به ربات گوگل می‌گوید که پوشه تصاویر وب سایت شما را ایندکس نکند.

User-agent: googlebot

Disallow: /images

2.     دستورالعمل Disallow

هر چیزی بعد از Disallow  بیاید صفحات یا بخش‌هایی است که ربات‌ها اجازه دسترسی به آن را ندارند. بنابراین، دستورDisallow: /  دسترسی ربات‌ها را به کل سایت ما مسدود می‌کند. در‌صورتی‌که در مقابل دستور Disallow  چیزی ننویسیم، سبب می‌شود که ربات‌های گوگل به تمام قسمت‌های سایت ما دسترسی داشته باشند.

پس اگر قصد دارید تنها قسمتی از محتوای خود را غیر مجاز کنید می‌توانید آدرس آن بخش را در  مقابل دستور Disallow قرار دهید. مانند مثال‌ زیر:

User-agent: *

Disallow: /wp-admin/

 

توجه داشته باشید که اگر دایرکتوری را پس از ایندکس شدن آن توسط موتور جستجو غیر مجاز کنید، ممکن است از فهرست آن حذف نشود. بنابراین، برای حذف آن باید سراغ ابزارهای وب مستر موتور جستجو بروید.

از‌طرف‌دیگر موتور جستجو ممکن است آدرس URl یک صفحه غیر مجاز را از طریق پیوندی در سایت دیگر یا نقشه سایت شما پیدا کند. بنابراین، برای اطمینان بیشتر از ایندکس نشدن صفحه مورد نظر، بهتر است از متا تگ noindex  در آن صفحه استفاده کنید.

3.     دستورالعمل Allow

از دستور Allow  زمانی استفاده می‌کنیم که بخواهیم به موتورهای جستجو اجازه استفاده از یک صفحه خاص را بدهیم. این دستور دقیقا نقطه مقابل دستورالعمل Disallow است و توسط Google و Bing پشتیبانی می‌شود.

اگر مسیری در مقابل این دستورالعمل تعریف نشده باشد، نادیده گرفته می‌شود. بنابراین، دستور Allow: /   به ربات‌ها اجازه می‌دهد که به صورت کامل به همه چیز دسترسی داشته باشند. به‌عنوان‌مثال دستورالعمل‌های زیر دسترسی همه موتورهای جستجو به فهرست media را غیر مجاز می‌کند. بنابراین، تنها فایلی که موتورهای جستجو اجازه دسترسی به آن را دارند، فایل terms.pdf است.

User-agent: *

Allow: /media/terms.pdf

Disallow: /media/

4.     دستورالعمل Sitemap

دستور Sitemap برای اضافه کردن نقشه سایت به فایل Robots.txt است و توسط موتورهای جستجوی اصلی پشتیبانی می‌شود. توصیه می‌کنیم که همیشه نقشه سایت را به این فایل اضافه کنید، حتی اگر قبلا آن را در کنسول موتور جستجوی خود ارسال کرده باشید. این کار به کمک دستورالعمل زیر انجام می‌شود.

Sitemap: https://www.example.com/sitemap_index.xml

 

تاثیر robots.txt در سئو سایت

robots.txt نقش موثری در SEO دارد و کمک می‌کند تا موتورهای جستجو به بهترین نحو ممکن وب سایت شما کراول و ایندکس کنند. با استفاده از این فایل می‌توانید از دسترسی موتورهای جستجو به بخش‌های خاصی از وب‌سایت خود جلوگیری کنید. همچنین از محتوای تکراری جلوگیری کرده و موتورهای جستجو را راهنمایی کنید تا به طور موثری وب سایت شما را کراول کنند.

 

خلاصه کلام

Robots.txt به‌عنوان یک ابزار قدرتمند به صاحبان وب‌سایت کمک می‌کند تا دسترسی خزنده‌های موتور جستجو را مدیریت کنند. شما می‌توانید از این فایل برای جلوگیری از خزیدن موتورهای جستجو در بخش‌های خاصی از وب‌سایت‌تان استفاده کنید.

توصیه ما به‌عنوان یک مرکز ارائه‌دهنده خدمات سئو این است که هنگام ایجاد تغییرات در فایل robots.txt مراقب باشید. چراکه این فایل می‌تواند بخش‌های بزرگی از وب‌سایت شما را برای موتورهای جستجو غیرقابل دسترس کند. بنابراین، فقط برای صفحاتی از این فایل استفاده کنید که هرگز نباید توسط موتورهای جستجو دیده شوند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *