Поисковый робот. Поисковый робот google: какую работу выполняет

Роботы-пауки у поисковых машин - это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.

Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.

Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот - все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.

При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то - графику, а третьи сохраняют контент в архиве и т.д.

Главная задача поисковых систем - создание алгоритма, который позволит получать информацию о быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.

Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко - сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.

Какая главная задача поисковых роботов

Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных . Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.

Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.

В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.

Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:

  • Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - основной индексирующий бот;
  • Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) - индексирующий паук;
  • Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - бот Яндекс.Картинок;
  • Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - индексирует мультимедийные материалы;
  • Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) - индексирует иконки сайтов.

Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:

  • правильно настроить robots.txt;
  • создать RSS-фид;
  • разместить sitemap с полным списком индексируемых страниц;
  • создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
  • настроить HTTP-статусы;
  • обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
  • интенсивное размещение новых уникальных текстов.

В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.

Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.

User-agent: Yandex

Disallow: /

запретит ПС индексировать весь сайт.

Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега укажет на то, что данный документ не нужно индексировать.

Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.

Роботы поисковики Google

Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие - игнорировать.

Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.

Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».

Полезные инструменты

Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.

Яндекс сегодня является самой популярной поисковой системой русскоязычного Интернета, которой каждый день пользуется более миллиона человек. Такая популярность объясняется тем, что база Яндекса содержит огромное количество проиндексированных страниц Интернета, содержащих самую разнообразную и порой уникальную информацию. Вкупе с алгоритмом поиска это приводит к высокой релевантности документов, найденных по запросу пользователя и, в конечном счете, к полному удовлетворению информационной потребности пользователя.

На 17.07.09 Яндексом было проиндексировано 3 558 614 259 веб-страниц. Получение информации с сайтов Интернета и отправка ее в базу поисковой системы – задача специального робота-индексатора. Во многом благодаря высокой скорости его работы на сегодняшний день Яндекс имеет такую обширную базу документов для поиска.

История роботов Яндекса

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

Роботы Яндекса

Робот каждой поисковой системы имеет свое имя. Например, у Рамблера - «StackRambler/2.0», у Гугла – «Googlebot/2.1». Яндекс в своем составе имеет несколько специализированных роботов, выполняющих строго определенные задачи. Вот каких роботов Яндекса можно встретить:

  • Yandex/1.01.001 (compatible; Win16; I) - основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех seo-специалистов очень важно отслеживать появление на своих сайтах робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в Интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  • Yandex/1.01.001 (compatible; Win16; P) - индексатор картинок, которые впоследствии будут доступны в поиске на http://images.yandex.ru . Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на замечательные лотосы на странице http://en.npftravel.ru/news/issue_117.html . Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg!
  • Yandex/1.01.001 (compatible; Win16; H) - робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс скорее всего покажет только один сайт.
  • Yandex/1.03.003 (compatible; Win16; D) - робот, на страницу при добавлении ее через форму «Добавить URL» , определяет доступность страницы для индексации.
  • Yandex/1.03.000 (compatible; Win16; M) - робот, обращающийся при открытии страницы по ссылке «Найденные слова».
  • YaDirectBot/1.0 (compatible; Win16; I) - робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
  • Yandex/1.02.000 (compatible; Win16; F) - робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.
  • Кроме того у Яндекса есть группа роботов, которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) - «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) - «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) - «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) - «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.
  • В отличие от роботов первой группы, эти работы не забирают содержимое странички, а фиксируют лишь ответ сервера. Поэтому они делают несколько другой запрос к серверу. Например, посещение робота Dyatel может быть зафиксировано в логах сервера в виде строки следующего содержания:

    213.180.193.53 - - "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

    Как видно, используется директива Head, запрашивающая только лишь заголовки сервера. В данном случае сайт доступен, работает, так как отдался статусный код 200 ОК.

    Также кроме перечисленных роботов, Яндекс имеет в своем составе так называемого «быстрого робота» - частота индексации им документа больше в несколько раз, чем у обычного робота-индексатора. По заявлению главного редактора компании "Яндекс" Елены Колмановской: «Быстрый робот нужен для индексации актуальных документов, наиболее востребованных пользователями».

    Узнать, посещал ли сайт быстрый робот, можно только одним путем – в результатах поиска рядом с адресом страницы сайта должна появиться небольшая приписка, обозначающая, сколько часов назад страницу посетил быстрый робот. Например, «5 часов назад».

    Процесс индексации документа

    Процесс индексации документа роботами поисковых систем в общем случае начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/ . Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. А вот в Рамблере, например, требуется указывать еще и название сайта, короткое описание регистрируемого сайта и контактное лицо.

    Если сайт добавляется впервые, то Яндекс выдаст сообщение:

    «Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска»

    Если сайт уже посещался роботом-индексатором, то появится сообщение:

    Документ http://example.com/ уже проиндексирован и доступен для поиска.
    Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц).

    После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является требование русскоязычности ресурса. Поэтому, как пример, может возникнуть такая ситуация:

    Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст.

    Если же все хорошо, то в логах сайта можно будет обнаружить строку:

    213.180.206.223 - - "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
    213.180.206.223 - - "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

    Видно, что сначала робот обратился к файлу robots.txt чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

    После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

    Возможные препятствия при индексации документа

    Есть несколько причин, препятствующих правильной индексации сайта в Яндексе.

  • Технические неполадки:
      a. Некорректная работа сервера, отдача 404 ошибки. b. большое время ответа сервера (Например, по причине его большой загрузки. Также большое время ответа характерно для бесплатных хостингов)
  • Искусственный запрет индексации:
      a. запрет индексирования отдельных страниц в файле robots.txt b. запрет индексирования с помощью meta-тегов
  • Другое:
      a. очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб) b. ресурс не содержит русский текст
  • Следует отметить, что Яндекс индексирует не только документы html. Кроме них доступными для индексации являются документы следующих типов: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Также Яндекс индексирует сайты, созданные на основе Flash-технологий. А вот Рамблер индексирует только файлы html, htm, shtml, а динамические страницы и flash сайты индексирует плохо.

    Просмотреть, в каком виде хранится web-страничка в базе Яндекса, можно следующим образом.

  • Сначала нужно сделать так, чтобы страница попала в выдачу. Проще всего воспользоваться «расширенным поиском Яндекса». Вписать в поле «находятся на сайте» url сайта, например, www.seonews.ru и далее в окно поиска ввести слово с требуемой страницы, например, «мастер-класс».
  • Найти в результатах поиска нужную страницу и нажать на ссылку «найденные слова».
  • Далее в верхней части документа нажать на ссылку «сохраненная копия»:
  • В новом окне откроется так называемая «сохраненная копия Яндекса». Можно посмотреть и сравнить с оригиналом документа. Может оказаться, что некоторые слова Яндексом не проиндексированы.
  • Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  • Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  • Текст расположен в скрипте, т.е между тегами
  • Текст расположен в комментариях
  • Заключение

    Каждому, кто ведет в Интернете серьезный проект, необходимо понимать основные принципы работы роботов-индексаторов поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

    Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

    Знание основным моментов процесса индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

    Удаление сайта целиком

    Чтобы удалить сайт из поисковых систем и запретить всем роботам в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt следующего содержания:

    User-agent: *
    Disallow: /

    Чтобы удалить сайт только из Google и запретить поисковому роботу Google в дальнейшем его сканировать, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

    User-agent: Googlebot
    Disallow: /

    Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть следующим образом.

    Для протокола http (http://yourserver.com/robots.txt ):

    User-agent: *
    Allow: /

    Для протокола https (https://yourserver.com/robots.txt ):

    User-agent: *
    Disallow: /

    Если файл robots.txt останется в корневом каталоге веб-сервера, в дальнейшем Google не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, сайт будет временно, на 180 дней, удален из индекса Google независимо от того, будет ли удален файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

    Удаление части сайта

    Вариант 1. Robots.txt

    Чтобы удалить каталоги или отдельные страницы сайта, можно поместить файл robots.txt в корневом каталоге сервера. О том, как создать файл robots.txt, рассказывается в Стандарт исключений для роботов. Создавая файл robots.txt, учитывайте следующие моменты. Принимая решение о том, какие страницы сканировать на том или ином хосте, поисковый робот Google действует в соответствии с первой записью в файле robots.txt, где параметр User-agent начинается со слова "Googlebot". Если такой записи нет, выполняется первое правило, в котором User-agent – «*». Кроме того, Google позволяет использовать файл robots.txt более гибко за счет применения звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени.

    Чтобы удалить все страницы того или иного каталога (например, "lemurs"), добавьте в файл robots.txt такую запись:

    User-agent: Googlebot
    Disallow: /lemurs

    Чтобы удалить все файлы определенного типа (например, .gif), добавьте в файл robots.txt такую запись:

    User-agent: Googlebot
    Disallow: /*.gif$

    Чтобы удалить динамически создаваемые страницы, добавьте в файл robots.txt такую запись:

    User-agent: Googlebot
    Disallow: /*?

    Вариант 2. Мета-теги

    Другой стандарт, более удобный для работы со страницами, предусматривает использование на странице формата HTML мета-тега, запрещающего роботам индексировать страницу. Этот стандарт описан на странице .

    Чтобы запретить всем роботам индексировать страницу сайта, добавьте в раздел этой страницы следующий мета-тег:

    Чтобы запретить индексировать страницу только роботам Google, а остальным разрешить, используйте следующий тег:

    Чтобы разрешить роботам индексировать страницу, но запретить переходить по внешним ссылкам, используйте следующий тег:

    Примечание. Если Ваш запрос срочный и ждать следующего сканирования Google невозможно, воспользуйтесь автоматической системой удаления URL.. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код страницы HTML соответствующие метатеги. После этого каталоги будут временно, на 180 дней, удалены из индекса Google независимо от того, удалите ли Вы файл robots.txt или метатеги после обработки запроса.

    Удаление фрагментов (сниппетов)

    Фрагмент (сниппет) – это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

    Чтобы запретить Google выводить фрагменты с Вашей страницы, добавьте в раздел следующий тег:

    Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

    Удаление сохраненных в кэше страниц

    Google автоматически создает и архивирует снимок каждой сканируемой страницы. Наличие таких сохраненных в кэше версий позволяет конечным пользователям находить страницы, даже если они недоступны (из-за временной неполадки на сервере, где размещена страница). Пользователи видят сохраненные в кэше страницы в том виде, в каком они были в момент сканирования роботом Google. Вверху страницы выводится сообщение о том, что это сохраненная в кэше версия. Чтобы получить доступ к такой странице, пользователь должен выбрать ссылку «Сохранено в кэше» на странице результатов поиска.

    Чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, добавьте в раздел следующий тег:

    Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала вставить в код HTML страницы соответствующие метатеги.

    Удаление картинки из системы поиска картинок Google

    Чтобы удалить картинку из индекса картинок Google, разместите в корневом каталоге сервера файл robots.txt. (Если это невозможно, поместите его на уровне каталога).

    Пример: Если требуется удалить из индекса Google изображение sobaki.jpg, размещенное на Вашем сайте по адресу www.vash-sajt.ru/kartinki/sobaki.jpg, создайте страницу www.vash-sajt.ru/robots.txt и добавьте на нее следующий текст:

    User-agent: Googlebot-Image
    Disallow: /images/sobaki.jpg

    Чтобы удалить из индекса все имеющиеся на сайте картинки, разместите в корневом каталоге сервера файл robots.txt со следующим содержанием:

    User-agent: Googlebot-Image
    Disallow: /

    Это стандартный протокол, который соблюдает большинство сканеров; он позволяет удалить из индекса сервер или каталог. Дополнительная информация о robots.txt представлена на странице

    Кроме того, Google позволяет использовать файл robots.txt более гибко за счет использования звездочек. В шаблонах запрета символ «*» может означать любую последовательность символов. Шаблон может оканчиваться символом «$», который обозначает конец имени. Чтобы удалить все файлы определенного типа (например, чтобы оставить картинки в формате.jpg, а в формате.gif удалить), добавьте в файл robots.txt такую запись:

    User-agent: Googlebot-Image
    Disallow: /*.gif$

    Примечание. Если Ваш запрос срочный и дождаться следующего сеанса сканирования сайта роботом Google невозможно, воспользуйтесь системой автоматического удаления URL. Чтобы запустить этот автоматический процесс, веб-мастер должен сначала создать файл robots.txt и поместить его на соответствующем сайте.

    Если файл robots.txt останется в корневом каталоге веб-сервера, Google и в дальнейшем не будет сканировать сайт или его каталоги. Если у Вас нет доступа к корневому каталогу сервера, можно поместить файл robots.txt на одном уровне с теми файлами, которые требуется удалить. После того как Вы это сделаете и воспользуетесь системой автоматического удаления URL, временно, на 180 дней, будут удалены каталоги, указанные в файле robots.txt, из индекса Google независимо от того, удалите ли Вы файл robots.txt после обработки запроса. (Если оставить файл robots.txt на том же уровне, URL потребуется удалять с помощью автоматической системы каждые 180 дней.)

    Просматривая логи сервера, иногда можно наблюдать чрезмерный интерес к сайтам со стороны поисковых роботов. Если боты полезные (например, индексирующие боты ПС) — остается лишь наблюдать, даже если увеличивается нагрузка на сервер. Но есть еще масса второстепенных роботов, доступ которых к сайту не обязателен. Для себя и для вас, дорогой читатель, я собрал информацию и переделал ее в удобную табличку.

    Кто такие поисковые роботы

    Поисковый бот , или как еще их называют, робот, краулер, паук — ни что иное, как программа, которая осуществляет поиск и сканирование содержимого сайтов, переходя по ссылкам на страницах. Поисковые роботы есть не только у поисковиков. Например, сервис Ahrefs использует пауков, чтобы улучшить данные по обратным ссылкам, Facebook осуществляет веб-скраппинг кода страниц для отображения репостов ссылок с заголовками, картинкой, описанием. Веб-скраппинг — это сбор информации с различных ресурсов.

    Использование имен пауков в robots.txt

    Как видим, любой серьезный проект, связанный с поиском контента, имеет своих пауков. И иногда остро стоит задача ограничить доступ некоторым паукам к сайту или его отдельным разделам. Это можно сделать через файл robots.txt в корневой директории сайта. Подробнее про настройку роботса я писал ранее, рекомендую ознакомиться.

    Обратите внимание — файл robots.txt и его директивы могут быть проигнорированы поисковыми роботами. Директивы являются лишь рекомендациями для ботов.

    Задать директиву для поискового робота можно, используя секцию — обращение к юзер-агенту этого робота. Секции для разных пауков разделяются одной пустой строкой.

    User-agent: Googlebot Allow: /

    User - agent : Googlebot

    Allow : /

    Выше приведен пример обращения к основному поисковому роботу Google.

    Изначально я планировал добавить в таблицу записи о том, как идентифицируют себя поисковые боты в логах сервера. Но так как для SEO эти данные имеют мало значения и для каждого токена агента может быть несколько видов записей, было решено обойтись только названием ботов и их предназначением.

    Поисковые роботы G o o g l e User-agent Функции
    Googlebot Основной краулер-индексатор страниц для ПК и оптимизированных для смартфонов
    Mediapartners-Google Робот рекламной сети AdSense
    APIs-Google Агент пользователя APIs-Google
    AdsBot-Google Проверяет качество рекламы на веб-страницах, предназначенных для ПК
    AdsBot-Google-Mobile Проверяет качество рекламы на веб-страницах, предназначенных для мобильных устройств
    Googlebot-Image (Googlebot) Индексирует изображения на страницах сайта
    Googlebot-News (Googlebot) Ищет страницы для добавления в Google Новости
    Googlebot-Video (Googlebot) Индексирует видеоматериалы
    AdsBot-Google-Mobile-Apps Проверяет качество рекламы в приложениях для устройств Android, работает по тем же принципам, что и обычный AdsBot
    Поисковые роботы Я ндекс User-agent Функции
    Yandex При указании данного токена агента в robots.txt, обращение идет ко всем ботам Яндекса
    YandexBot Основной индексирующий робот
    YandexDirect Скачивает информацию о контенте сайтов-партнеров РСЯ
    YandexImages Индексирует изображения сайтов
    YandexMetrika Робот Яндекс.Метрики
    YandexMobileBot Скачивает документы для анализа на наличие верстки под мобильные устройства
    YandexMedia Робот, индексирующий мультимедийные данные
    YandexNews Индексатор Яндекс.Новостей
    YandexPagechecker Валидатор микроразметки
    YandexMarket Робот Яндекс.Маркета;
    YandexCalenda Робот Яндекс.Календаря
    YandexDirectDyn Генерирует динамические баннеры (Директ)
    YaDirectFetcher Скачивает страницы с рекламными объявлениями для проверки их доступности и уточнения тематики (РСЯ)
    YandexAccessibilityBot Cкачивает страницы для проверки их доступности пользователям
    YandexScreenshotBot Делает снимок (скриншот) страницы
    YandexVideoParser Паук сервиса Яндекс.Видео
    YandexSearchShop Скачивает YML-файлы каталогов товаров
    YandexOntoDBAPI Робот объектного ответа, скачивающий динамические данные
    Другие популярные поисковые боты User-agent Функции
    Baiduspider Спайдер китайского поисковика Baidu
    Cliqzbot Робот анонимной поисковой системы Cliqz
    AhrefsBot Поисковый бот сервиса Ahrefs (ссылочный анализ)
    Genieo Робот сервиса Genieo
    Bingbot Краулер поисковой системы Bing
    Slurp Краулер поисковой системы Yahoo
    DuckDuckBot Веб-краулер ПС DuckDuckGo
    facebot Робот Facebook для веб-краулинга
    WebAlta (WebAlta Crawler/2.0) Поисковый краулер ПС WebAlta
    BomboraBot Сканирует страницы, задействованные в проекте Bombora
    CCBot Краулер на основе Nutch, который использует проект Apache Hadoop
    MSNBot Бот ПС MSN
    Mail.Ru Краулер поисковой системы Mail.Ru
    ia_archiver Скраппит данные для сервиса Alexa
    Teoma Бот сервиса Ask

    Поисковых ботов очень много, я отобрал только самых популярных и известных. Если есть боты, с которыми вы сталкивались по причине агрессивного и настойчивого сканирования сайтов, прошу в комментариях указать это, я добавлю их также в таблицу.

    Друзья, я снова приветствую Вас! Сейчас мы разберем, что такое поисковые роботы и подробно поговорим про поисковый робот google и как с ними дружить.

    Сначала надо понимать, что вообще такое поисковые роботы, еще их называют пауки. Какую работу выполняют пауки поисковых систем?

    Это программы, которые проверяют сайты. Они просматривают все записи и страницы на вашем блоге, собирают информацию, которую потом передают в базу той поисковой системы, на которую они трудятся.

    Не надо знать весь список поисковых роботов, самое главное знать, что у гугла сейчас появились два основных паука, которые называются «панда» и «пингвин». Они борются с некачественным контентом и мусорными ссылками и надо знать как отражать их атаки.

    Поисковый робот google «панда» создан для того, чтобы продвигать в поиске только качественный материал. Все сайты с низкопробным контентом понижаются в поисковой выдаче.

    Первый раз этот паук появился в 2011 году. До его появления можно было продвинуть любой сайт публикуя в статьях большой объем текста и используя огромный объем ключевых слов. В совокупности эти два приема выводили на верх выдачи поиска не качественный контент, а хорошие сайты понижались в выдаче.

    «Панда» сразу навел порядок проверив все сайты и расставил всех по своим заслуженным местам. Хотя она и борется с низкопробным контентом, зато сейчас можно продвинуть даже небольшие сайты с качественными статьями. Хотя раньше такие сайты продвигать было бесполезно, они не могли конкурировать с гигантами у которых большое количество контента.

    Сейчас мы с вами разберемся, как можно избежать санкций «панды». Надо сначала понять что ей не нравится. Я уже писал выше, что она борется с плохим контентом, но какой текст для нее плохой, давайте разберемся в этом, чтобы не публиковать такой на своем сайте.

    Поисковый робот google стремиться чтобы в этом поисковике выдавалась только качественные материалы для соискателей. Если у вас есть статьи в которых мало информации и они не привлекательные внешне, то срочно перепишите эти тексты, чтобы «панда» не добралась до вас.

    Качественный контент может иметь как большой объем, так и маленький, но если паук видит длинную статью с большим количеством информации значит она больше принесет пользы читателю.

    Затем надо отметить дублирование, а другими словами плагиат. Если вы думаете что будете переписывать чужие статьи себе на блог, то можете сразу поставить крест на своем сайте. Копирование строго наказывается наложением фильтра, а проверяется плагиат очень легко, я писал статью на тему как проверять тексты на уникальность .

    Следующее что надо заметить, это перенасыщение текста ключевыми словами. Кто думает, что напишет статью из одних ключей и займет первое место в выдаче – очень сильно ошибается. У меня есть статья, как проверять страницы на релевантность, прочитайте обязательно.

    И еще что может привлечь к вам «панду», так это старые статьи, которые устарели морально и не приносят трафик на сайт. Их нужно обязательно обновить.

    Существует так же поисковый робот google «пингвин». Этот паук борется со спамом и мусорными ссылками на вашем сайте. Так же он вычисляет купленные ссылки с других ресурсов. Поэтому, чтобы не бояться этого поискового робота, надо не заниматься закупом ссылок, а публиковать качественный контент, чтобы люди сами на вас ссылались.

    Сейчас давайте сформулируем, что надо сделать чтобы сайт глазами поискового робота смотрелся идеально:

    • Для того чтобы сделать качественный контент, сначала хорошо изучите тему, прежде чем писать статью. Затем надо понимать, что данной темой реально интересуются люди.
    • Используйте конкретные примеры и картинки, это сделает статью живой и интересной. Разбивайте текст на мелкие абзацы, чтобы читать было легко.Вот например, если вы открыли в газете страницу с анекдотами, то какие сначала прочитаете? Естественно каждый человек сначала читает короткие тексты, затем подлиньше и в самую последнюю очередь уже длинные портянки.
    • Любимая придирка «панды» — это не актуальность статьи в которой содержится устаревшая информация. Следите за обновлениями и изменяйте тексты.
    • Следите за плотностью ключевых слов, как определить эту плотность я написал выше, в сервисе о котором я рассказал вы получите точное необходимое количество ключей.
    • Не занимайтесь плагиатом, всем известно что нельзя воровать чужие вещи или текста – это одно и то же. За воровство будете отвечать попаданием под фильтр.
    • Тексты пишите минимум на две тысячи слов, тогда такая статья будет выглядеть глазами роботов поисковых систем информативной.
    • Не уходите от темы вашего блога. Если вы ведете блог по заработку в интернете, то не надо печатать статьи про пневматическое оружие. Это может снизить рейтинг вашего ресурса.
    • Красиво оформляйте статьи, делите на абзацы и добавляйте картинки, чтобы приятно было читать и не хотелось побыстрее уйти с сайта.
    • Закупая ссылки, делайте их на самые интересные и полезные статьи, которые реально будут читать люди.

    Ну вот сейчас вы знаете какую работу выполняют роботы поисковых систем и сможете с ними дружить. А самое главное поисковый робот google и «панда» и «пингвин» вами подробно изучен.