Нюансы индексации - sitemap, .htaccess, robots.txt

Для управления действиями роботов существуют три вида файлов: robots.txt, .htaccess, sitemap. В продолжении прошлой статьи, для индексации Вашего сайта каждый из файлов по своему нужен, и соответственно должен присутствовать в списке файлов у Вашего хостера. Итак рассмотрим их все по порядку.

robots.txt

Для того чтобы рассказать поисковому роботу куда ему надо и не надо ходить существует файл robots.txt. Данный файл с расширением TXT необходимо создать и положить в корневую директорию Вашего сайта, то есть рядом с index.php или index.html у кого как. Файл должен содержать примерно следующее:

User-agent: *
Disallow: /cgi-bin
Host: s-lp.ru
Sitemap: http://s-lp.ru/sitemap.xml

В первой строке, там где User-agent: - указывается робот для которого вы пишите данную директиву, в данном случае стоит звездочка, то есть то, что написано ниже касается всех поисковых роботов. Если Вам надо прописать директивы для каждого поискового робота отдельно, то вместо звездочки необходимо указать имя робота, и соответственно далее для каждого робота отдельно прописывать куда ходить, а куда не ходить.

Вторая строка Disallow: содержит те файлы или папки куда Вы роботов пускать не хотите, если у Вас от роботов секретов нет, то данную строку писать не надо, если же у вас несколько секретов, то каждый файл или папку надо указывать в новой строке и соответственно с директивы Disallow:

В третьей строке указан Host: и адрес Вашего сайта, можно IP адрес. (Естественно адрес надо заменить на свой)

И наконец в последней Sitemap: указывается адрес в котором лежит карта сайта, описание которой чуть ниже.

После того, как Вы разместите robots.txt на сайте, его желательно проверить на правильность написания, это можно сделать например здесь.

Sitemap

Карта сайта - это файл в формате "XML" который Вам необходимо создать, так-же как и robots.txt в корневой директории Вашего сайта. Роботы и без нее все найдут, но это вопрос времени. В данном файле для роботов заботливо описываются все страницы существующие на Вашем сайте, но не факт, что эта бездушная железяка с первого раза проиндексирует все страницы указанные в карте. Sitemap.xml это только подсказка для роботов-пауков, которые смогут выполнить более тщательное индексирование сайта. Бесплатно создать карту сайта размером до 500 станиц можно например здесь или здесь. Но учтите, что добавляя новые страницы на сайт Вам придется переписывать вышеуказанный файл, или же написать скрипт для автоматизирования данного процесса.

.htaccess

Директивами .htaccess настраивается веб-сервер Вашего сайта. Вообще это очень широкая тема и достойна отдельной статьи, здесь мы с Вами рассмотрим основные необходимые для индексации сайта директивы.

Файл .htaccess можно помещать в любую папку, его директивы действует на все файлы в текущей папке и во всех подпапках (если конечно эти директивы не переопределены директивами расположенного в подпапке другого файла .htaccess).

Для начала надо создать создать вышеуказанный файл, для этого открываем блокнот и сохраняем пока пустой файл с именем .htaccess с точкой впереди, при этом не забыв в "типе файла" выбрать Все файлы(*.*) - .htaccess не имеет расширения. Перед вводом текста, необходимо убедиться, что выключен "Перенос по словам" ("Формат" в верхней панели и уберите "галочку"), это очень важно, так как большинство директив в .htaccess должны размещаться на одной строке.

Рассмотрим первую директиву - Redirect то есть перенаправление, а понадобится она Вам например в случае если главный индексный файл лежит не в корневой директории сайта или вообще на другом домене, причин может быть много.

Redirect / http://s-lp.ru
# http://s-lp.ru - здесь соответственно надо прописать необходимый Вам путь, по которому перенаправляться
# пришедшие люди и роботы. Комментарии обязательно надо писать на отдельной строке.

Правилом хорошего тона является перенаправление Ваших посетителей в случае появления каких либо серверных ошибок, ниже пример наиболее часто встречающихся.

ErrorDocument 403 /error/403.php
# Ошибка 403 - пользователь не прошел аутентификацию, запрет на доступ.
ErrorDocument 404 /error/404.php
# Ошибка 404 - запрашиваемый документ, файл или директория не найдены.
ErrorDocument 500 /error/500.php
# Ошибка 500 - внутренняя ошибка сервера (например ошибка синтаксиса в файле .htaccess).

Данные директивы перенаправляют посетителей на файлы 403.php, 404.php и 500.php лежащие в папке "error" корневой директории сайта, у меня в блоге это выглядит так. Список существующих ошибок можно посмотреть здесь.

Для правильного определения ТИЦ (Тематический Индекс Цитирования) и PR (Page Rank) необходимо склеить ссылки http://www.sitename.ru и http://sitename.ru. Вообще склейка ссылок это очень вредное явление для поисковой оптимизации и тема для будущей статьи, но в данном случае склейка необходима и реализуется она:

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^s-lp.ru$ [NC]
RewriteRule ^(.*)$ http://s-lp.ru/$1 [L,R=301]
# Если Вы наберете в адресной строке http://www.s-lp.ru то увидите только s-lp.ru

И последнее немаловажное для SEO это сокращение ссылки в адресной строке - URL юзабилити, или дружелюбные адреса

RewriteEngine On
RewriteRule ^index.php$ / [QSA,R]
# Данная директива срезает /index.php при внутреннем переходе по сайту.
# Например набрав в адресной строке http://s-lp.ru/index.php Вы увидите только s-lp.ru.

Поисковые роботы любят короткие адреса страниц, длинные адреса с множеством различных параметров могут рассматриваться поисковиками как спам, или ненужную информацию для юзера сидящего по другую сторону интернета. Простой пример адрес http://www.film.ru/download.php?type=mpeg4&file=film выглядит хуже чем film.ru/files/mpeg4/film.zip. Но помните, что если Ваши «кривые» адреса страниц уже проиндексированы поисковыми системами, то смена адресов на дружелюбные может нанести ущерб, то есть уже считанная ботами информация (Контент) окажется не там, где думает поисковик, что приведет к увеличению посещаемости Вашей страницы error/404.php )).


В следующей статье, мы с Вами рассмотрим meta теги, некоторые из существующих уже атавизм, а без некоторых никак не обойтись.


Анекдот в тему:

Сидит кодер глубоко в отладке. Подходит сынишка:
- Папа, почему солнышко каждый день встает на востоке, а садится на западе?
- Ты это проверял?
- Проверял.
- Хорошо проверял?
- Хорошо.
- Работает?
- Работает.
- Каждый день работает?
- Да, каждый день.
- Тогда ради бога, сынок, ничего не трогай, ничего не меняй.