Все мы знаем что такое файл robots.txt и с чем его едят, и хотелось бы рассказать как избежать ситуации, в которой не смотря на запрет прописанный в файле robots.txt, запрещенные к индексу страницы могут оказаться в поиске. Для этого нужно всего лишь придерживаться ряда правил.
Само расположение файла очень важно, он должен располагаться только в корневом каталоге сайта. При обращении к файлу, кол его ответа должен быть только двести, потому как любой другой ответ означает только то, что поисковой робот не может получить доступ к файлу robots.txt.
Также важен размер файла, он не должен превышать размера в тридцать два килобайта, при превышении указанного размера, поисковой робот не учитывает содержимое обсуждаемого нами файла и не исполняет прописанных там указаний. если в указании файла прописаны правила для нескольких поисковиков, то робот Яндекса учитывает только то, что прописано для него.
Если вы в файле прописали правила, которые противоречат или взаимоисключают друг друга, то поисковой робот будет выполнять только те правила, которые разрешают индексирование.
При соблюдении вышеописанного, вполне можно быть уверенным в том, что вся информация прописанная в файле robots.txt. будет учитываться поисковыми системами, и те страницы которые нежелательны для индексирования, навсегда будут сокрыты для роботов поисковых систем,а продвижению вашего сайта ничего не помешает. Хотелось бы также отметить, что например Яндекс , после того как файл robots.txt был отредактирован или изменен, проводит обновление информации прописанной в нем, минимум через неделю, и это нужно учитывать при внутренней SEO оптимизации сайта.