Файл robots.txt
Файл robots.txt
Абсолютно все поисковые боты при посещении сайта первым делом проверяют наличие в корневой директории файла robots.txt. Если он присутствует то бот следует инструкциям прописанным в нем. Что же это за файл? Далеко не все вебмастера знают как им пользоваться и потому не создают файл robots.txt совсем. Часто на форумах можно услышать вопрос «как составить robots.txt». Что ж уделим немного внимания этому нужному элементу оптимизации сайта.
Файл robots.txt – это текстовый файл содержащий инструкции для ботов поисковых систем. Файл обязательно должен находиться в корневой директории сайта. Правильная настройка robots.txt поможет избежать многих проблем с индексацией, зазеркаливанием и попаданием в индекс не нужных (служебных) страниц вашего сайта.
Создание robots.txt
Создать robots.txt очень просто, необходимо просто открыть блокнот который идет в комплекте с Windows и прописать в нем нужные директивы. После этого сохраняем файл с названием «robots» и расширением «txt» и закачиваем в корневую директорию сайта. Для одного сайта вы можете создать только один файл robots.txt. Формат robots.txt подразумевает написание инструкций для всех поисковых систем. Т.е. не надо делать такой файл под каждую ПС.
Формат файла robots.txt
В файле robots.txt всегда должны быть как минимум две следующие директивы:
User-agent: - определяет для какого бота какой поисковой системы будут следующие инструкции
Disallow: - указывает какую директорию сайта (конкретную страницу) не индексировать.
Можно задать одинаковые директивы для всех поисковых систем, для этого нужно в User-agent поставить «звездочку»:
User-agent: *
В общем случае синтаксис файла robots.txt выглядит так:
User-agent: *
Disallow: /file.html
Disallow: /papka/
Где, * - указывает что инструкции для всех поисковых систем
Disallow: /file.html – запрещает индексацию файла file.html
Disallow: /papka/ - запрещает индексацию всех файлов папки «papka»
Если вам не надо запрещать к индексации ни каких страниц сайта, то ваш правильный robots.txt будет выглядеть так:
User-agent: *
Disallow:
Robots.txt для Яндекса (Yandex)
Всегда нужно указывать в файле robots.txt для Яндекса директиву «Host». Директива host в robots.txt указывает поисковой системе Яндекс как нужно индексировать сайт: с «www» или без «www». Применение директивы «Host» позволит избежать проблем с зеркалом сайта. Лучше сразу все сделать правильно. Пример robots.txt для Яндекса:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
На приведенном примере robots.txt указано что бы Yandex индексировал сайт с www. А на следующем примере без него:
User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru
Часто новички задают вопрос: «как лучше с www или без?». Отвечу: принципиальной разницы ни какой нету. Сайт будет абсолютно одинаково работать и так и так. НО вам надо обязательно определиться с этим и прописать в Host. Если вы этого не сделаете то в индексе Яндекса появятся дубли страниц. Будут страницы и с www и без. Это негативно скажется на продвижении сайта.
Важный момент, директиву host понимает только Yandex поэтому для него и для других поисковых систем нужно разделять директивы. Содержание файла robots.txt будет следующим:
User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru
User-agent: *
Disallow: /cgi-bin
Где отдельные директивы для Яндекса и отдельные для всех прочих ПС. Думаю этих данных должно вам хватить для правильного составления файла robots.txt.
Запрет индексации сайта в robots.txt
Сначала рассмотрим как запретить индексацию страниц сайта. Лучше всего это делать через специальный файл robots.txt. Он предназначен для указания поисковым системам инструкций по индексации сайта. Делается он с блокноте Windows и сохраняется c именем robots и расширением txt. В нем прописываются нужные указания и файл помещается в корневую директорию сайта. У одного сайта может быть только один файл robots.txt. Я уже писал про файл robots.txt и потому повторяться не буду, напомню лишь как запретить индексацию сайта в robots.txt.
User-agent: *
Disallow: /file.html
Disallow: /papka/
Где, * - указывает что инструкции для всех поисковых систем
Disallow: /file.html – запрещает индексацию файла file.html
Disallow: /papka/ - запрещает индексацию всех файлов папки papka
Запрещаем индексацию сайта через мета-тег robots
При помощи мета-тега robots можно управлять индексацией конкретной страницы сайта. Данный мета-тег дает указания по индексации страницы ботам всех поисковых систем. Тут нельзя прописать инструкцию для робота конкретной поисковой системы. Как и все мета-теги, он располагается в заголовке документа между тегами <head> </head>. Формат записи такой:
<meta name="robots" content="noindex, nofollow">
Через атрибут content могут быть заданы следующие условия:
index – разрешает индексировать данную страницу сайта;
noindex – запрещает индексировать данную страницу сайта;
follow – разрешает индексировать ссылки на данной странице;
nofollow – запрещает индексировать ссылки на данной странице;
all – включает в себя сразу index и follow (разрешает индексировать и страницу и ссылки);
none – включает noindex и nofollow (запрещает индексировать и страницу и ссылки).
Запрет индексации ссылки через инструкцию rel
Инструкция rel учитывается не всеми поисковыми системами. При ее помощи можно закрыть ссылку от индексации в Google и Yahoo. А вот наш любимый Яндекс ее игнорирует. Формат записи:
<a href=http://site.ru rel="nofollow">ссылка</a>
Такую конструкцию часто используют когда не хотят что бы ссылке передавался ссылочный вес, а так же Google PageRank на ссылаемый сайт.
Запрет индексации части страницы через тег <noindex>
Тег <noindex> дает возможность запретить часть страницы, причем это может быть как текст, так и ссылки или скрипты. Формат записи:
<noindex>
тут ссылка или часть страницы которую вы хотите закрыть от индексации
</noindex>
Если инструкцию rel слушаются такие поисковики как Гугл и Яху, то тег ноиндекс применяют когда хотят закрыть индексацию от Yandex и Rambler. Часто этим тегом закрывают нежелательные к индексации ссылки и коды счетчиков и рейтингов.
Еще по внутренней оптимизации:
3.1 Контент сайта
3.2 Ключевые слова и их расположение на странице
3.3 Теги TITLE, H1-H8, B, I, EM
3.5 Файл robots.txt




