Распространенные проблемы SEO, связанные с файлом Robots.txt
Файлы Robots.txt — это инструмент, ограничивающий для сканеров поисковых систем доступ к определенным страницам сайта. В этой статье мы поделимся рекомендациями, касающиеся файла robots.txt.
- Метатег Robots: <meta name=«robots» content=«noindex» />
- Настройте HTTP-заголовок X-Robots-Tag.
- Отсутствует файл Robots.txt
- Добавление строк Disallow для блокировки конфиденциальной информации
- Добавление Disallow для предотвращения дублирования контента
- Добавление Disallow для кода, размещенного на стороннем сайте
- Использование абсолютных URL-адресов
- Robots.txt размещен не в корневой папке сайта
- Обслуживание разных файлов Robots.txt
- Добавлена директива для блокировки всего содержимого сайта
- Добавление ALLOW вместо DISALLOW
- Неверное расширение типа файла
- Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать
- Блокировка доступа ко всему сайту во время разработки
- Написание директив заглавными или прописными буквами
- Использование кодов состояния сервера (например, 403) для блокировки доступа
Что такое файл Robots.txt?
Файл robots.txt сообщает поисковым роботам, какие веб-страницы сайта они могут просматривать. Бот поисковой системы (например, Googlebot) читает файл robots.txt перед началом сканирования вашего сайта, чтобы узнать, с какими веб-страницами он должен работать.
Вот так выглядит файл robots.txt.
Когда боты и другие сканеры попадают на сайт, они могут использовать большой объем серверных мощностей. Это может замедлить ваш сайт. Robots.txt решает эту проблему.
Ниже приведен пример файла Robots.txt от Google, в котором для Googlebot заблокирован доступ к определенным каталогам, разрешен доступ к /directory2/subdirectory1/. Но для других сканеров заблокирован весь сайт.
Почему нужно использовать синонимы и связанные ключевые слова
Пользовательские агенты перечислены в «группах». Каждая группа указана в отдельных строках по типу сканера. Она содержит перечень файлов, к каким он может и не может получить доступ.
Почему файлы Robots.txt важны?
Информирование поискового сканера о том, какие страницы сайта нужно сканировать, а какие нет, позволяет лучше контролировать краулинговый бюджет сайта, направляя поисковых роботов к наиболее важным его страницам.
Файла robots.txt также позволяет избежать перегрузки сервера сайта разнообразными запросами. Например, в приведенном выше примере robots.txt есть файлы, которые хранятся в папке /cgi-bin. Их блокировка в Robots.txt дает сканерам понять, что в этой папке нет ресурсов, которые нужно индексировать.
Предупреждение: веб-страницы, заблокированные в robots.txt, могут отображаться в результатах поиска Google, но без описания.
Чтобы предотвратить отображение URL-адреса в результатах поиска Google, необходимо защитить файлы на сервере паролем, использовать метатег noindex или заголовок ответа.
Если веб-страницы заблокированы для сканирования в robots.txt, то любая информация об индексировании или служебных директивах не будет найдена и будет игнорироваться.
Поисковым роботам следует разрешить сканировать важные ресурсы, необходимые для отображения содержимого страниц сайта.
Рекомендованные практики Google для файлов Robots.txt
1. Блокировать определенные веб-страницы
Файл Robots.txt можно использовать для блокирования доступа поисковых сканеров к определенным веб-страницам сайта.
Совет: для блокировки сканирования и индексации используйте директиву noindex на уровне конкретной веб-страницы. Но лучше добавить эту директиву глобально с помощью HTTP-заголовка X-Robots-Tag.
Пагинация и SEO: возможные проблемы и рекомендации по использованию
2. Медиа-файлы
Используйте файл robots.txt для предотвращения отображения в поисковой выдаче изображений, видео и аудио файлов. Но это не помешает другим веб-страницам или пользователям ссылаться на эти ресурсы. Если другие веб-страницы или сайты ссылаются на этот контент, он все равно может появиться в результатах поиска.
3. Файлы ресурсов
Используйте robots.txt, чтобы заблокировать второстепенные ресурсы. Но если их отсутствие затрудняет понимание краулером конкретных веб-страниц, то не следует их блокировать.
Как работать с атрибутами Noindex
Google не рекомендует добавлять в файл robots.txt директиву noindex, потому что она будет игнорироваться. Вместо этого используйте одно из следующих решений:
1. Метатег Robots: <meta name=«robots» content=«noindex» />
Приведенный выше пример тега указывает поисковым системам не показывать веб-страницу в результатах поиска. Значение атрибута name= «robots» указывает, что директива применяется ко всем сканерам. Чтобы обратиться к определенному сканеру, замените значение robots атрибута name на имя сканера.
Совет: данный метатег должен указываться в разделе <head>. Если нужно заблокировать определенные страницы сайта от сканирования или индексации, используйте директиву no index.
2. Настройте HTTP-заголовок X-Robots-Tag.
X-Robots-Tag можно использовать как элемент ответа HTTP-заголовка для конкретного URL-адреса. Любая директива метатега robots также может быть указана в X-Robots-Tag. Ниже приведен пример HTTP-ответа с X-Robots-Tag, который указывает поисковым сканерам не индексировать страницу:
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (...) X-Robots-Tag: noindex (...)
Чтобы использовать одновременно несколько директив, их нужно указать через запятую.
Совет: мы рекомендуем использовать этот метод для блокировки любого контента. X-Robots-Tag с HTTP-ответами позволяют указать директивы сканирования, которые применяются на сайте глобально.
14 распространенных проблем с Robots.txt
1. Отсутствует файл Robots.txt
Сайт без файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно сканируется и индексируется нормально.
Возможная причина проблемы: Файла robots.txt повышает уровень контроля над контентом и файлами сайта, которые может сканировать и индексировать поисковый бот. Его отсутствие означает, что Google будет индексировать весь контент сайта.
2. Добавление строк Disallow для блокировки конфиденциальной информации
Добавление строки Disallow в файл robots.txt также представляет собой угрозу безопасности. Так как определяет, где хранится закрытый от пользователей контент.
В чем проблема: Используйте проверку подлинности на стороне сервера, чтобы заблокировать доступ к личному контенту.
Социальные мета-теги для Google+, Twitter и Facebook
3. Добавление Disallow для предотвращения дублирования контента
Сайты должны быть просканированы, чтобы определить их канонический индекс. Не блокируйте содержимое с помощью robots.txt вместо canonical.
В чем проблема: В некоторых CMS достаточно сложно добавлять пользовательские теги canonical. В этом случае можно попробовать другие методы.
4. Добавление Disallow для кода, размещенного на стороннем сайте
Чтобы удалить контент со стороннего сайта, вам необходимо связаться с его владельцем.
В чем проблема: Это может привести к ошибке, когда сложно определить исходный сервер для конкретного контента.
5. Использование абсолютных URL-адресов
Директивы в файле robots.txt (за исключением «Sitemap:») действительны только для относительных путей.
В чем проблема: Сайты с несколькими подкаталогами могут использовать абсолютные адреса, но действительны только относительные URL.
6. Robots.txt размещен не в корневой папке сайта
Файл Robots.txt должен быть размещен в самом верхнем каталоге сайта.
В чем проблема: Не помещайте файл robots.txt в какую-либо другую папку.
7. Обслуживание разных файлов Robots.txt
Не рекомендуется обслуживать различные файлы robots.txt в зависимости от агента пользователя или других атрибутов.
В чем проблема: сайты всегда должны использовать один и тот же файл robots.txt для международной аудитории.
8. Добавлена директива для блокировки всего содержимого сайта
Часто владельцы сайтов оставляют файл robots.txt, который может содержать строку disallow, блокирующую все содержимое сайта.
В чем проблема: Это происходит, когда на сайте используется версия robots.txt по умолчанию.
9. Добавление ALLOW вместо DISALLOW
На сайтах не обязательно указывать директиву allow. Директива allow позволяет переопределять директивы disallow в том же файле robots.txt.
В чем проблема: В случаях, когда директивы disallow похожи, использование allow может помочь в добавлении нескольких атрибутов, чтобы их различать.
10. Неверное расширение типа файла
В разделе справки Google Search Console рассказывается, как создавать файлы robots.txt. После того, как вы создали этот файл, можно будет проверить его с помощью тестера robots.txt.
В чем проблема: Файл должен иметь расширение .txt и создаваться в кодировке UTF-8.
11. Добавление Disallow для папки верхнего уровня, где размещаются веб-страницы, которые нужно индексировать
Запрет на сканирование веб-страниц может привести к их удалению из индекса Google.
В чем проблема: При добавлении перед именем папки звездочки (*) это может означать что-то промежуточное. Когда она добавлена после, это указывает на необходимость заблокировать все, что включено в URL-адрес после /.
12. Блокировка доступа ко всему сайту во время разработки
Можно временно приостановить поисковое сканирование, вернув код HTTP 503 для всех URL-адресов, включая файл robots.txt. Файл robots.txt будет периодически проверяться, пока он будет недоступен.
В чем может быть проблема: При перемещении сайта или массовых обновлениях robots.txt может быть пустым по умолчанию для блокировки всего сайта. В данном случае он должен оставаться на месте и не быть удален во время технического обслуживания.
13. Написание директив заглавными или прописными буквами
Директивы в файле robots.txt являются чувствительными к регистру.
В чем проблема: Некоторые CMS автоматически устанавливают URL-адреса для отображения содержимого файла robots.txt в верхнем и нижнем регистре. Директивы должнысоответствовать фактической структуре URL-адресов со статусом 200.
14. Использование кодов состояния сервера (например, 403) для блокировки доступа
Чтобы заблокировать сканирование сайта, файл robots.txt должен возвращаться в обычном режиме (то есть с HTTP-кодом «200» «ОК»).
В чем проблема: при перемещении сайта robots.txt может оказаться пустым или удаленным. Рекомендуется, чтобы он оставался на месте и не был удален во время технического обслуживания.
Как проверить, используется ли сайте X-Robots-Tag?
Чтоб проверить заголовки сервера, используйте инструмент просмотреть как робот Google в Search Console.
Заключение
Проверьте весь сайт, чтобы определить веб-страницы, которые следует заблокировать с помощью директив disallow. Убедитесь в том, что на сайте не используется автоматическое перенаправление и не изменяется файл robots.txt. Оцените эффективность сайта до и после изменений.
Источник: www.internet-technologies.ru