Поисковая оптимизация и robots.txt at Web programming Blog

Установка файла robots.txt

Правильную работу с файлом robots.txt можно назвать самым эффективным из многих методов поисковой оптимизации и советов по ее проведению. Этот файл содержит инструкции для роботов поисковой системы, так называемых пауков, о том, как нужно индексировать веб-сайт, какие из его файлов и директорий обойти стороной и оставить не проиндексированными.

В одном из своих первых изданий Клинт Диксон рассказал, как создать файл robots.txt, какую информацию туда включить, как правильно прописать команды User-Agent и Disallow. Эта статья отражает основные идеи Клинта Диксона по работе с файлом robots.txt, и, кроме того, раскрывает важность их применения при проведении поисковой оптимизации и последствия некорректного их использования.

Реакция поисковых систем на файл robots.txt

Реакция поисковых систем на наличие или отсутствие файла robots.txt может быть разнообразной. Для того чтобы понять, что файл robots.txt является одним из основных для роботов поисковой системы, нужно просто внимательно изучить статистику своего сайта. Многие роботы, прежде чем приступить к индексации сайта изучают именно этот файл, другие вначале только проверяют, присутствует ли он в базе данных, и лиС?ь через какое-то время возвращаются вновь для дальнейС?его исследования сайта. Некоторые роботы индексируют сайт несмотря на отсутствие в его базе robots.txt, но больС?инство предпочитают просто не иметь с такими сайтами какого-либо дела. В этом и проявляется крайнее последствие пренебрежения файлами robots.txt, однако существуют и более отрицательные результаты.

Роботы и пауки основных поисковых систем отличаются стереотипным поведением при прочтении файла robots.txt.

MSNbot

Робот поисковой системы MSN называется MSNbot. Этот робот довольно таки прожорлив и даже привередлив при индексировании веб-сайтов. Многих веб-мастеров это очень даже устраивает и они стараются сделать все возможное для того, чтобы угодить ему. Другие разработчики и не думают тратить старания на поисковые системы, которые не обеспечат их необходимым трафиком. Как бы то ни было, оставив свой сайт без файла robots.txt, вы лиС?ите себя внимания MSNbot. Как только робот встречает файл robots.txt в ваС?ей базе данных, у него просыпается интерес к ваС?ему ресурсу, и индексирования не избежать. Вначале почти робко, потом все быстрее и увереннее он изучает данные ваС?их файлов. Единственным средством для усмирения любопытства этого робота является указание приостановки индексации.

Однако совсем недавно на ненасытного робота MSN поступили жалобы от некоторых веб-разработчиков. MSNbot обвинялся в непослуС?ании. Оказалось, что он игнорировал указания, прописанные в robots.txt, инструктирующие его не входить в определенные директории.

Остается только надеяться на то, что в скором будущем создатели MSNbot примут надлежащие меры по перевоспитанию выС?едС?его из-под контроля робота.

Возможно, в процессе они усоверС?енствуют его до такой степени, что он станет покорно изучать открытую для доступа информацию с точностью до символа, а в случае отсутствия robots.txt в базе данных, он смущенно оставит сайт без внимания, не получив разреС?ения на его просмотр.

Inktomi Slurp (поисковой системы Yahoo)

Yahoo узаконил использование робота Inkomi, который получил в этой поисковой системе новое имя Slurp. Inkomi-Yahoo Slurp основательно перерабатывает информацию базы данных в течение двух-трех дней, затем исчезает, возвращается снова, читает, изучает, перерабатывает и уходит опять. Без robots.txt он работал бы очень медленно, если бы и вообще не потерял свою силу. Однако без этого файла он не смог бы и проникнуть глубоко в структуру сайта и просмотреть данные ограниченного доступа.

Googlebot

Google настоятельно рекомендует прописывать файлы robots.txt для сайтов. Тем, кто занимается проведением кампании по поисковой оптимизации, наверняка известно, что нормативы Google для веб-разработчиков представляют собой детальное поС?аговое руководство по проведению оптимизации. Так что, если уж в нормативах Google упоминается о файле robots.txt, необходимость в нем должна приниматься за прописную истину.

IA Archiver

Робот поисковой системы Alexa получил название IA Archiver. Этот предприимчивый и обходительный “паук” не требует больС?их ресурсов и работает достаточно медленно, не выбивая из строя работу сервера. Он индексирует не более двухсот страниц за один приход и снова принимается за дело не ранее, чем через пару дней, не выбиваясь из установленного графика. Анализируя статистику своего сайта, вы сможете почти точно предсказать следующее появление этого робота. Что еще не маловажно, IA Archiver беспрекословно следует robots.txt инструкциям и указаниям.

Существует немало других роботов, с которыми может столкнуться ваС? сайт. Одни последуют robots.txt указаниям, другие не придадут им особого значения. Для предотвращения проблем, возникающих из-за бестактности поведения некоторых роботов, существует немало способов, которые будут рассмотрены в настоящей статье в дальнейС?ем.

УсоверС?енствованные robots.txt свойства и команды

Так как основных robots.txt команд всего две, не всем роботам поисковых систем свойственно понять другие более усоверС?енствованные команды. Очень важно, иметь представление о том, какие из роботов поймут эти команды, а какие нет.

Команда “Crawl-Delay” – приостановка индексирования

Некоторые роботы поисковых систем индексируют сайты со скоростью света, затрачивая больС?ие ресурсы, не оставляя тем самым веб-серверам никакой другой инициативы, кроме как отказать в доступе к IP адресу и запретить индексацию с помощью специального программного обеспечения. Когда робот начинает слиС?ком быстро считывать информацию из базы данных, эта программа запускается и блокирует работу поисковой системы. Не обязательно наказывать всех поисковых роботов, используя эти программы, для контроля действий других более послуС?ных роботов можно обойтись другим методом – команда приостановки индексирования:

User-agent: MSNbot

Disallow: /

С помощью другой команды можно установить время приостановки (в секундах). Выждав установленное количество секунд, MSNbot продолжит исследование страниц на сервере.

User-agent: MSNbot

Crawl-Delay: 20

Такая команда будет указанием для робота MSNbot подождать 20 секунд, прежде чем далее индексировать страницы с того же сервера. Р? как только вам покажется, что MSNbot слиС?ком стремительно принялся за индексацию, эта команда поможет ненадолго усмирить его.

Этой команде последуют также роботы Slurp, Ocelli, Teoma/AskJeeves, Spiderline и многие другие. Googlebot не поддерживает этой команды, хотя при работе с этим роботом в ней редко возникает необходимость. Если вы не уверенны, поддерживается ли эта команда роботами той или иной поисковой системы или нет, обратитесь к группе технической поддержки этой поисковой системы за ответом. Получить контактную информацию можно на сайте Robots.Txt.org, там же вы найдете перечень многих поисковых роботов и указание на то, к какой поисковой системе они относятся.

Мета-тег инструкции

В настоящее время существует несколько тысяч поисковых роботов, и просто невозможно назвать их все, а к тому же перечислить все их достоинства и недостатки. Для контроля над ними веб-разработчики добавляют к мета-тегам специальные команды-инструкции для роботов.

Эта команда запрещает индексировать страницу.

Эта инструкция также запрещает индексировать страницу и даже изучать ссылки, размещенные на ней.

Также можно воспользоваться и другими командами:

Однако нет гарантии того, что каждый поисковый робот последует данной команде. В случае непослуС?ания вам остается одно – найти в лог-файлах сервера IP адрес, с которого робот заходит на ваС? сайт и просто запретить ему доступ к ваС?ей базе данных.

Ограничение потребляемых ресурсов

Другая проблема, связанная с роботами поисковых систем, это необходимые для их работы ресурсы. За один визит на ваС? сайт один робот может израсходовать чуть ли не весь ваС? трафик. Таким образом, индексирование обернется дорогим для вас удовольствием.

Отсутствие файла robots.txt может стать причиной оС?ибки № 404, когда поисковая система просто не может найти нужную страницу. Размещение на сайте страницы, предназначенной для вывода информации об оС?ибке 404, также повлечет расход трафика, поэтому robots.txt файл, не требующий серьезных затрат, в любом случае, является наиболее приемлемым реС?ением проблемы.

Некоторые веб-разработчики предлагают в качестве не менее выгодного варианта тег “revisit-after”.

Однако не все поисковые системы (например, Google) поддерживают эту программу, поэтому она редко является эффективной. Р? если вы заметили, что Googlebot слиС?ком часто заходит в ваС?у базу данных, поглощая немало трафика, обратитесь к Google с просьбой о том, чтоб Googlebot реже заглядывал на ваС? сайт.

Можно также закрыть доступ к базе данных для определенных роботов и открыть его для других или прописать индивидуальную для каждого робота инструкцию, работа с robots.txt отличается гибкостью.

Robots.txt файл в целях обеспечения безопасности

Многим известна история компании Perfect 10, которая обвинила корпорацию Google в незаконном использовании информации, а конкретно, фотографий с их сайта. Согласно BusinessWire.com, прикрываясь статусом поисковой системы, Google незаконно распространил тысячи фотографий, принадлежащих Perfect 10, и этим привлек на свой сайт огромный трафик, сопоставимый с прибылью в сотни тысяч долларов, по праву предназначенных Perfect 10. Как утверждает Perfect 10 даже после обвинений в посягательстве на “частную собственность”, Google и не думает прекращать свою бесстыдную деятельность и продолжает распространять фотографии, не спраС?ивая на то разреС?ения.

Самое интересное в этой ситуации то, что виноваты, как ни странно, тут сами Perfect 10, потому как именно они не посчитали нужным проинструктировать поисковую систему не трогать свои фотографии. А ведь это не стоило бы им огромных усилий. Две незатейливые строчки robots.txt файла в базе данных – и вопрос реС?ен.

User-agent: Googlebot-ImageDisallow: /images

Robots.txt выступает, таким образом, эффективным методом контроля. Если хотите сохранить что-либо в тайне, используйте логины и пароли. Не хотите, чтоб поисковая система проиндексировала ваС? сайт, используйте robots.txt и специальные мета-теги. Р? помните, безопасность ваС?ей информации в ваС?их руках.

Р?сточник информации: www.seochat.com

Пн	Вт	Ср	Чт	Пт	Сб	Вс
				Апр »
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Web programming Blog

Поисковая оптимизация и robots.txt

Установка файла robots.txt

Реакция поисковых систем на файл robots.txt

MSNbot

Inktomi Slurp (поисковой системы Yahoo)

Googlebot

IA Archiver

УсоверС?енствованные robots.txt свойства и команды

Команда “Crawl-Delay” – приостановка индексирования

Мета-тег инструкции

Эта команда запрещает индексировать страницу.

Robots.txt файл в целях обеспечения безопасности

0 Responses to “Поисковая оптимизация и robots.txt”

Leave a Reply

Последние записи

Кнопки

Рубрики

Календарь

Архивы