| Главная » Статьи » Раскрутка сайта |
Файл robots.txt
robots.txt - указывает поисковым роботам какие каталоги брать для индексации не следует. Если пуст или не существует, то все можно брать. Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (именно с маленькой бувы) (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет. robots.txt состоит из двух полей: User-agent - название робота, Disallow - запрет на индексирование файла или директории. комментарии - начинаются с новой строки с #. Редакторы robots.txt должен создаваться в текстовом формате. В качестве редактора можно использовать блокнот, FTP-клиент, некоторые HTML-редакторы. Название robots.txt, а не robot.txt или Robots.txt, иначе не будет работать. Местонахождение Файл robots.txt должен располагаться в корневом каталоге. Пробелы <Поле> ":" <значение> Пробелы не имеют значения. Комментарии Комментарии - начинаются с новой строки с #. Пробел после # не обязателен. Порядок 1-я строка User-agent, которая определяет робота, а последующая Disallow определяет файл или папку, закрытую для индексирования. Если запрет относится к ряду роботов, то они пишутся один за одним отдельно, а потом запрет или перечень запретов, например: User-agent: StackRambler User-agent: Aport Disallow: /eng Disallow: /news #Рамблеру и Апорту запретить индексацию ссылок, #которые начинаются с /news и /eng То же самое и для Disallow - каждый запрет с новой строчки. Если же для разных роботов разные запреты, то они разделяются пустой строкой, например: User-agent: * Disallow: /news # запретить всем роботам индексировать ссылки, #которые начинаются с /news User-agent: StackRambler User-agent: Aport Disallow: /eng Disallow: /news #Рамблеру и Апорту запретить индексацию ссылок, #которые начинаются с /news и /eng User-agent: Yandex Disallow: #Яндексу разрешить все. Запрет всем роботам индексацию файлов с расширениями .doc и .pdf: User-Agent: * Disallow: /*.doc$ Disallow: /*.pdf$ =============================================== ПРИМЕРЫ:User-agent: Roverdog Disallow: email.htm Разрешает всем роботам индексировать все: User-agent: * Disallow: Запрещает всем роботам всё: User-agent: * Disallow: / Запрещает всем роботам индексировать файл email.htm, все файлы в папке "cgi-bin" и папке 2-го уровня "images": User-agent: * Disallow: email.htm Disallow: /cgi-bin/ Disallow: /images/ Запрещает роботу Roverdog индексировать все файлы сервера: User-agent: Roverdog Disallow: / Еще пример: User-agent: * Disallow: /cgi-bin/moshkow Disallow: /cgi-bin/html-KOI/AQUARIUM/songs Disallow: /cgi-bin/html-KOI/AQUARIUM/history Disallow: /cgi-bin/html-windows/AQUARIUM/songs Disallow: /cgi-bin/html-windows/AQUARIUM/history ================================================== МЕТА-тег ROBOTS<HTML> <HEAD> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> <META NAME="DESCRIPTION" CONTENT="Эта страница …."> <TITLE>...</TITLE> </HEAD> <BODY> NOINDEX - запрещает индексирование документа; NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе; INDEX - разрешает индексирование документа; FOLLOW - разрешает проход по ссылкам. ALL - индексировать всё, равносильно INDEX, FOLLOW NONE - не индексировать ничего, равносильно NOINDEX, NOFOLLOW Примеры мета-тега robots: <META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW"> <META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW"> <META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Robots.txt Checker - бесплатная проверка функциональности файла robots.txt | |
| Просмотров: 395 | | |
| Всего комментариев: 0 | |