Loading...
X

Google игнорирует файл robots.txt и не скрывает это


На почту пришло письмо, скриншот которого чуть выше, со следующим текстом:

На сайте https://******/ выявлена новая проблема с материалами формата "Индексирование отправленных URL"

Владельцу сайта https://******/

Мы выявили на Вашем сайте новые проблемы (количество: 1), связанные с материалами формата "Индексирование отправленных URL", с помощью инструментов Search Console. Это означает, что контент в формате "Индексирование отправленных URL" может быть некорректно представлен в результатах Google Поиска. Рекомендуем выполнить проверку Вашего сайта и устранить выявленную ошибку.

Ниже приведены некоторые из обнаруженных неполадок.

Проиндексировано, несмотря на блокировку в файле robots.txt

С помощью Search Console исправьте неполадки с материалами формата "Индексирование отправленных URL"

Меня в этом письме поразила фраза «Проиндексировано, несмотря на блокировку в файле robots.txt». Т.е. Google самостоятельно принимает решение, что он проиндексирует, что нет, независимо от файла robots.txt.

Эта же информация подтверждается в Google Search Console (Beta):


Это при том, что Яндекс честно исключил запрещённые для индексации страницы (по крайней мере, так показано в ЯндексВебмастере):

Я в файле robots.txt закрыл от индексирования отчёты работы сервиса, которые никому, кроме получившего его пользователя, не интересны. В отчётах мало текста, иногда это просто пустые файлы – даже с точки зрения здравого смысла, это никак не должно находиться в поисковой выдаче. Основные страницы сайта открыты для индексации.

В общем, пока решил продолжить наблюдать за ситуацией. Вполне возможно, что вообще какая-то ошибка и этот баг будет поправлен.

В противном случае, можно настроить сайт так, чтобы при запросе отчётов поисковым ботом возвращалась ошибка 404 (ресурс не найден) или 403 (доступ закрыт).


Leave Your Observation

Ваш e-mail не будет опубликован. Обязательные поля помечены *

wp-puzzle.com logo

Scroll Up