یکی از مواردی که می تواند در سئو داخلی سایت بسیار موثر باشد، استفاده درست و اصولی از فایل robots.txt است. با ما همراه باشید تا ضمن بررسی دلایل اهمیت این فایل،

آشنایی با فایل robots.txt و تاثیر آن در سئوReviewed by نسترن خیرمند on May 25Rating: 5.0

زمانی که سایت خود را طراحی و راه اندازی کردید، سایت شما برای گوگل مانند یک جعبه درب بسته و یک معما است که نمی داند موضوع این سایت چیست؟ قدم اول پس از راه اندازی و طراحی سایت این است که به گوگل و ربات های آن سایت خود را معرفی کنید. یکی از روش های ساده برای این کار، استفاده از فایل robots.txt است.

فایل robots.txt چیست؟

در سطر بالا گفته شد که باید سایت را به گوگل معرفی کنید، اما این وظیفه متخصصان سئو و وب مستران است که با تعیین یک استراتژی صحیح باید مشخص کند که گوگل چه صفحاتی را crawl کند و چه صفحاتی را نکند. منظور از crawl کردن یعنی خزیدن و دیدن ربات گوگل بین صفحاتی است که مشخص کرده اید. برای این کار لازم است تا از فایل robots.txt استفاده کنید. در این مقاله همراه ما باشید تا آموزش ایجاد فایل robots.txt را ارائه دهیم.

فایل robots.txt یک فایل متنی است که باید وب مستران سایت برای ایجاد آن اقدام کنند. فایل robots.txt یک راهنما برای ربات های موتور جستجوی گوگل است که تاثیر به سزایی در سئو و بهینه سازی سایت دارد. این فایل به ربات های موتور جستجوی گوگل فرمان می دهد چه صفحاتی از سایت را خزش کند و چه صفحاتی را نکند. نکته قابل توجه و مهم این است که چه صفحاتی را باید به گوگل معرفی کنید تا آن ها را ایندکس کند. برای دانستن این نکات پیشنهاد می کنم با پروتکل REP آشنا شوید و در مورد آن مطالعه کنید.

پروتکل REP که مخفف عبارت Robots Exclusion protocol است که استانداردهایی را جهت برای ساماندهی و مشخص کردن وضعیت ربات های خزنده گوگل برای بررسی سایت ها و ایندکس کردن آن ها و میزان دسترسی کاربران به صفحات را تعیین می کند. لینک های no follow و follow و فایل robots.txt هم جز پروتکل REP است.

دستورات مهم فایل robots.txt

۵ دستور مهم در فایل Robots.txt

۱- دستور user-agent: توسط این دستور می توانید نوع رباتی را که می خواهید برای اجرای دستوراتی که در ادامه مقاله به آن پرداخته می شود، انتخاب کنید. دستور user-agent به تنهایی یک دستور کامل و مجزا از دستورات دیگر robots.txt نیست.  در صورتی که می خواهید نوع رباتی که انتخاب کرده اید برای همه ربات ها انجام شود به صورت زیر دستور را بنویسید:

۲- دستور Disallow: بعد از این که با استفاده از user-agent نوع ربات مورد نظر را انتخاب کردید، باید برای این ربات دستور مشخص کنید. دستور disallow به معنای اجازه ندادن است و وقتی می خواهید به ربات دستور دهید که صفحات مد نظر و مشخص شده را کرال (crawl) نکند از این دستور استفاده کنید.

روش کار این است که در مقابل این دستور صفحاتی را که نمی خواهید ربات های گوگل بین آن ها بخزد و محتوای آن را نبیند مشخص می کنید. نکته قابل توجه برای استفاده از دستور disallow این است که اگر می خواهید چندین صفحه از سایت را ربات گوگل کرال نکند از چندین دستور disallow باید استفاده کنید. به مثال های زیر توجه کنید :

۳- دستور Allow: دستور allow برخلاف دستور disallow به معنی اجازه داده است و برای این که به ربات مورد نظرتان دستور دهید که چه صفحاتی توسط ربات گوگل کروال و خزیده شود از این دستور استفاده کنید. برخی از وب مستران عقیده دارند که هر چند همه صفحات سایت توسط ربات های گوگل کروال و دیده و بررسی می شود اما نیاز است که برای تاکید بیشتر و دقیق تر برخی از صفحات که برای سایت مهم تر و حیاتی تر هستند از دستور allow استفاده شود. به مثال های زیر توجه کنید:

۴- دستور crawl-delay: سرعت لود شدن صفحات یکی از معیارهای مهم در افزایش یا کاهش رضایت کاربران و در نتیجه معیار موثری در تعیین رتبه سایت است. دستور crawl-delay  تاثیر مهمی بر سرعت سایت ایفا می کند. شاید گمان می کنید که استفاده زیاد از ربات ها و دستور دادن به آن ها باعث کاهش سرعت سایت می شود، اما در واقع چنین نیست. راه حل پیشنهادی برای این که سرعت سایت کاهش نداشته باشد این است که در مقابل دستور crawl-delay یک عدد مشخص کنید که ربات های خزنده چند ثانیه پس از لود شدن صفحه سایت شما را بررسی کنند و بین صفحات بخزند. این دستور برای ربات های اصلی گوگل تاثیری ندارد.

۵- دستور sitemap: این دستور نیازی به اضافه کردن دستور user-agent ندارد. در مقابل دستور sitemap باید آدرس سایت مپ سایت مورد نظر را وارد کنید.

فایل robots.txt شامل چه مواردی است؟

فایل robots.txt شامل چه مواردی است؟

سایت هایی که توسط سیستم مدیریت محتوا وردپرس طراحی و پیاده سازی می شوند، دارای صفحاتی مانند /wp-admin/ ، /readme.html/ و /plugins/ (صفحه پلاگین) هستند. این صفحات حاوی نسخه اطلاعات سایت وردپرسی،صفحات افزونه ها هستند؛ این گونه صفحات باید disallow شوند تا ربات های خزنده گوگل این صفحات را پیمایش نکند.

بدیهی است که سایت های گوگل دارای جایگاه های متفاوتی در موتورهای جستجو هستند به این منظور و برای این که ربات های گوگل جایگاه صفحات مختلف سایت ها را در موتور جستجو تشخیص دهند و آن ها را پیدا کنند نیاز است که از دستور sitemap با استفاده از فایل robots.txt انجام شود.

دلیل و نیاز اصلی سایت برای استفاده از فایل robots.txt چیست؟

برای هر کدام از موارد زیر می توانید از فایل robots.txt استفاده کنید:

  • برخی از صفحات سایت ها هستند که نیازی نیست که توسط کاربران عمومی یا کاربرانی که عضو سایت نیستند یا از کارکنان سایت نیستند، دیده شود، به این منظور می توانید از فایل txt استفاده کنید و قسمتی از صفحات را از دسترس مشاهده کاربران خارج کنید.
  • بسیاری از سایت ها مخصوصا سایت های فروشگاهی دارای صفحاتی با محتوای تکراری استفاده کنند، برای این که الگوریتم های گوگل این محتوا ها را تکراری تلقی نکند از دستور disallow استفاده کنید.
  • مکان نقشه سایت را و محل قرارگیری محل فیزیکی کسب و کار را برای جستجوی راحت کاربران و متناسب با قواعد و قوانین الگوریتم های گوگل مانند الگوریتم کبوتر مشخص کنید و از این کار از فایل txt و دستور sitemap استفاده کنید.
  • فایل هایی مانند pdf و تصاویر نیازی به ایندکس شدن در گوگل و خزیدن توسط ربات های گوگل ندارد. کاربران به دنبال اطلاعات و محتوای بهتر و خاص تری در نتایج جستجو هستند ، به همین دلیل اجازه ندهید که ربات ها این فایل ها را ایندکس کنند.
  • برای جلوگیری از کاهش سرعت سایت از دستور crawl-delay استفاده کنید.

رابطه لینک سازی و robots.txt

رابطه بین فایل robots.txt و لینک سازی

همان طور که گفته شد ربات های گوگل همه صفحات سایت را ایندکس و بررسی می کنند، مگر این که شما مشخص کنید تا برخی صفحات را پیمایش نکند. ربات های گوگل لینک ها را دنبال می کند، بنابراین زمانی که از طریق سایت خود به سایت های دیگر لینک دهید، ربات این گونه لینک ها را پیمایش می کند؛ به همین دلیل نیاز است قبل از این که  سایت را پیمایش کند، از فایل robots.txt کمک بگیرید. این فایل به ربات های گوگل دستور می دهد تا از آن پیروی کند و اگر از این فایل استفاده نشود، تمام صفحات و لینک ها را بررسی می کند.

چطور ببینم سایت فایل robots.txt دارد یا نه؟

اگر به تازگی مدیریت یک سایت را قبول کرده اید و می خواهید ببینید سایت فایل robots.txt دارد یا نه؟ در انتهای آدرس اصلی سایت روش زیر را اجرا کنید:

https://clickaval.com/robots.txt

به این ترتیب می توانید محتویات فایل را بررسی کنید. در صورتی که سایت دارای فایل robots.txt نباشد به صفحه خطای۴ ۴۰ می رسید که نشان دهنده عدم وجود این فایل است.

آموزش ایجاد فایل robots.txt

  • وارد صفحه اصلی هاست سایت یا دایرکت ادمین شوید.
  • روی گزینه file manager کلیک کنید.
  • وارد پوشه public-html شوید.
  • یک فایل جدید داخل پوشه public-html به نام txt بسازید و دوبار روی آن کلیک کنید تا ذخیره شود.
  • دستورات لازم و ربات های لازم و مد نظر خود را انتخاب و تعیین نمایید و ذخیره کنید.
  • فایل جدید را در هاست سایت جایگزین فایل قبلی کنید.

هنگام نوشتن نام فایل robots.txt از حروف کوچک استفاده کنید. چون این فایل به حروف کوچک و بزرگ حساس است. زمان نگارش و مشخص کردن دستورات ربات ها نیز از حروف کوچک استفاده نمایید.

ارتباط بین بهینه سازی سایت و استفاده از فایل robots.txt

در ابتدای مقاله گفته شد که یکی از روش هایی که وب مستران برای بهبود وضعیت سایت خود از آن استفاده می کنند به کارگیری این فایل است. به همین دلیل زمان استفاده از این فایل نکات زیر را در نظر داشته باشید:

  1. دستور disallow زمانی که در سایت استفاده شود، به طور کلی برای فایل های مشخص شده خزیده و پیمایش نمی شود. یعنی حتی اگه از لینک سازی داخلی استفاده کرده اید و دستور disallow را هم فعال کرده اید، حتی لینک های داخلی هم به لینک های no follow تبدیل می شود و پیمایش نمی شود.
  2. به منظور برطرف کردن این مشکل به جای استفاده از disallow  دستور دیگری استفاده کنید.
  3. اطلاعاتی که در فایل robots.txt ذخیره می شود، معمولا به مدتیک روز در حافظه کش ثبت و ذخیره می شود؛ برای پرداخت دقیق تر به این موضوع زمانی که محتوای این فایل را تغییر می دهید، تغییرات را در وب مستر گوگل (سرچ کنسول) تغییر داده و ذخیره کنید تا موتورهای جستجو این تغییرات را سریع تر متوجه شوند و سایت شما را ایندکس کنند.

ثبت فایل robots.txt توسط سرچ کنسول گوگل

  • روش ایجاد فایل txt در قسمت بالای مقاله به آن پرداخته شد، پس از این که این فایل را ساختید، آن را در سرچ کنسول قرار دهید.
  • پس از آن متوجه می شوید، ربات های گوگل صفحاتی که توسط این فایل allow یا disallow کرده اید، سریعا توسط گوگل بررسی و پیمایش می شود.