Файл robots.txt!?

Конечно же все слышали про файл robots.txt и практически все сайты имеют его.
Постораюсь объяснить, для чего он и как им правильно пользоваться…

Всё же robots для ботов поисковых систем, которые ходят по страницам сайта и сообщают им о существовании этих страниц!
Эти боты нужны для интернета, но это не значит, что все боты полезны для вашего сайта.
Нам нужно контролировать этих ботов, и были созданы определённые стандарты для этого.
Вот этот самый robots.txt и является одним из стандартов для контроля и ограничения доступа страниц, для этих ботов.
Но всё же некоторые крупные компании игнарируют, то, что вы пропишите в файле robots.txt.
Например Google!
Если у вас всё же возникнут проблемы с ботами, можно использовать сервисы для безопасности!
В этом вам помогут https://www.cloudflare.com/ или https://sucuri.net/

Основные функции robots.txt

запрет или рекомендация посещать ботам те страницы, которые вы хотите проиндексировать или наоборот!
полный запрет ботам, которые грузят вашу систему сервера!

Для полной блокировки исследования используйте “noindex”
Данные в robots.txt не являются полным запретом индекса, это мы сообщаем поисковикам не сканировать эти страницы.
Например, если на других сайтах будет стоять ссылка на эту страницу, то Google её проиндексирует!

Джон Мюллер, аналитик Google вот, что сказал:

«…Здесь следует иметь в виду одну вещь: если эти страницы заблокированы файлом robots.txt, теоретически может случиться так, что кто-то случайным образом сделает ссылку на одну из этих страниц. И если они это сделают, то может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован robots.txt. Таким образом, мы бы не знали, что вы не хотите, чтобы эти страницы были действительно проиндексированы. Принимая во внимание, что если они не заблокированы robots.txt, вы можете поместить метатег “noindex” на эти страницы. И если кто-то ссылается на них, и мы случайно просматриваем эту ссылку и думаем, что здесь может быть что-то полезное, мы бы знали, что эти страницы не нужно индексировать, и мы можем просто пропустить их индексацию полностью. Таким образом, в этом отношении, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, используйте вместо этого тег “noindex”…»

Файл robots.txt должен находиться в корне вашего сайта
https://сайт.ru/robots.txt

Сначало нужно создать пустой файл с именем “robots.txt”:

Создали или загрузили его с вашего локального диска

Что же можно или нужно туда прописать?

Рекомендации по наполнению файла

Директива Что делает
User-agent * Указывает на робота, для которого действуют перечисленные в robots.txt правила.
Disallow Запрещает индексирование разделов или отдельных страниц сайта.
Sitemap Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
Allow Разрешает индексирование разделов или отдельных страниц сайта.
Crawl-delay Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указываем, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из «Корзины с товарами».
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указываем роботу на файл sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Если, вы хотите заблокировать доступ всем сканерам к вашему сайту.

User-agent: * Disallow: /

через * мы обозначаем, что это для всех User-agent
через слеш / в Disallow мы запрещаем доступ ко всем страницам сайта

Если, вы не хотите, что бы какой то один сайт сканировал, то можем прописать запрет ботам этого сайта
На примере Bing

User-agent: Bingbot Disallow: /

Так же можно запблокировать доступ всем User-agent к определённым техническим и системным папкам вашего сайта

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Но, если вдруг нам нужно разрешить доступ к файлу в запрещённой, то это можно сделать так

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Создаём разные правила для разных ботов

Создаём разные правила для разных ботов
Например для всех запретить доступ к папке /wp-admin/
А для Bingbot ко всему сайту

User-agent: *
Disallow: /wp-admin/

Вот например готовый файл robots.txt для WordPress

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /?
Disallow: /?s=
Allow: /.css
Allow: /*.js
Sitemap: https://site.ru/sitemap.xml

А вот правильный Robots.txt для WordPress выглядит следующим образом:

User-agent: * # Для всех поисковых систем, кроме Яндекса и Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html # Закрываем бесполезный мануал по установке WordPress (лежит в корне)
Disallow: *?replytocom
Allow: */uploads
User-agent: GoogleBot # Для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: //.js
Allow: //.css
Allow: /wp-.png Allow: /wp-.jpg
Allow: /wp-.jpeg Allow: /wp-.gif
Allow: /wp-admin/admin-ajax.php
User-agent: Yandex # Для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/ # Закрываем метки
Disallow: /readme.html
Disallow: *?replytocom
Allow: */uploads
Allow: //.js
Allow: //.css
Allow: /wp-.png Allow: /wp-.jpg
Allow: /wp-.jpeg Allow: /wp-.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat
Sitemap: https://site.com/sitemap_index.xml # Карта сайта, меняем site.com на нужный адрес.

Используйте с умом и сообразительностью!

Источник

Файл robots.txt!?

Комментарии:

keywords-club.ru