Описание поисковой системы Яндекс: апдейты и алгоритм работы Яндекса. Поисковые системы

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

1. Особенности поисковой системы «Яндекс».

Поисковая система «Яндекс» является четвертой среди крупнейших поисковых систем мира и первой крупной неанглоязычной поисковой системой. Среди стран СНГ и бывшего СССР Яндекс занимает ведущие позиции по количеству обрабатываемых поисковых запросов, именно с этим связаны отдельные его особенности. Как и Google Яндекс регулярно совершенствует свои поисковые процессы, позволяя находить наиболее релевантные результаты поиска.

Изначально Яндекс придерживался следующих правил, для результата выдачи:

Уникальность контента на сайте.

Исключение сайтов-близнецов из результатов поиска.

Создание статистики релевантности для интернет ресурсов.

Исключение сайтов с переоптимизацией или с использованием черных методов оптимизации.

Основным отличием поисковой системы «Яндекс» является учет морфологии сложного и могучего русского языка. Не маловажным является и тот факт, что домены расположенные в зонах ru, su, ua индексируются данной поисковой системой более приоритетно и сразу же после их создания, домены, расположенные в других зонах, начинают индексироваться только через месяц.

В 2009 году Яндекс стал использовать технологию под названием «Снежинск», благодаря которой удалось реализовать поиск по географическому расположению пользователя.

Яндекс очень большое внимание уделяет релевантности и уникальности контента сайта, алгоримы Яндекса положительно выделяют ресурсы с плотностью слов-ключей в тексте от 4% до 6%. Специально для более результативного поиска Яндекс разработал способы индексирования текста внутри приложений, весом до 10мб, различных форматов, находящихся на ресурсе.

При определении уровня релевантности сайта поисковая система «Яндекс» учитывает данные, размещенные в файле robot.txt, а так же некоторые метатеги. Следует отметить, что поисковым роботом Яндекса не просматриваются такие метатеги, как Revisit-After и Keywords.

Описания в результатах поискового запроса от «Яндекс» формируется на основании выдержек из текстового контента ресурса, т.е. можно сделать вывод, что тег Description не очень важен для данного поисковика. В отдельных случаях, если описание в теге в большой мере релевантно запросу, то описание под результатом выдачи может браться из тега.

Как утверждают сотрудники Яндекса метатег кодировки не важен для данной поисковой системы, ибо она сама может определять кодировку документов.

К особенностям Яндекса так же относят и тот факт, что он не индексирует ссылки, созданные на сайте при использовании скриптов JavaScript.

Очень большим плюсом данной поисковой системы является учет возраста интернет-ресурса, т.е. если вы создали свой сайт, расположили на нем уникальный контент, а через 2-3 месяца какой-то умник скопировал ваш текст к себе на ресурс, то Яндекс будет индексировать ваш сайт, а сайт копипастера нет.

2. Особенности поисковой системы Google.

Поисковая система Google является самой крупной во всем мире, её используют пользователи сети Интернет в большинстве современных стран, очень много крупных компаний и корпораций используют её как корпоративную поисковую систему. В настоящий момент компания Google это крупная инновационная корпорация, занимающаяся различными IT проектами в разных направлениях. Стоит отметить, что все свои разработки компания старается связывать друг с другом, делать взаимодействие между проектами наиболее тесным.

Если рассматривать Google, с точки зрения поиска, то можно узнать много интересных фактов, но об этом вы можете почитать и в википедии. Я же хочу обратить внимание на особые отличия поисковой системы Google от других поисковых систем. Итак, почему же эта система так популярна, почему другим поисковикам тяжело с ней конкурировать? Все очень просто, причина такой популярности в скорости поиска. На данный момент, эта поисковая система самая быстрая, результаты по введенному пользователю запросу генерируются в считанные доли секунды. Этого удается достичь за счет технологии под названием PageRank, заключающейся в копировании определенной информации с Интернет-ресурсов на сервера компании Google, таким образом, для поиска релевантного сайта, роботу Google не надо обходить и анализировать все сайты в Интернете, ему достаточно обратиться к базе копий, и по ним выдать результат. Именно из-за использования этой технологии компания Google является крупнейшим владельцем серверных компьютеров в мире.

Однако PageRank это не только копирование информации и поиск по ней, это так же и поиск, основывающийся на качестве внешних ссылок на ваш сайт, своеобразный аналог сервиса Яндекс цитирования.

Так же стоит обратить внимание на глобальность поисковой системы Google. Если, например, Яндекс имеет фильтр по региону пользователя, то Google в свою очередь данного фильтра не имеет, и он производит поиск во всемирном масштабе.

К особенностям Google так же относят использование «паука» под названием Googlebot. Данному поисковому роботу можно как запретить индексировать ваш сайт, так и ускорить шанс индексации им, для этого необходимо испрользовать файл robot.txt или различные стандартные метатеги. Google так же использует специфический тег:. Этот тег используется поисковиком для исключения вашего ресурса из его кэш памяти и благодоря этому пользователи могут просматривать вашу страницу на вашем сервере, а в кэше поисковика. Это позволит вашим пользователям регулярно получать свежие обновления вашего контента, без участия Googlebot’а.

Как следствие глобальности поисковой системы Google имеет огромную базу проиндексированных документов, поэтому нет гарантии, что ваш сайт будет проиндексирован после включения его в каталог ресурсов Google с использованием формы AddURL, скорее всего бот поисковика найдет ваш сайт раньше и проиндексирует его самостоятельно. Большое значение для индексации поисковым ботом Google имеет наличие вашего ресурса в каталоге DMOZ, который просматривается поисковым ботом регулярно.

Еще одной, пожалуй, отрицательной чертой поисковой системы Google является тот факт, что динамические страницы Google индексирует не в полном объеме, а если на страницах используются сессии, то индексация не происходит совсем.

Очень большое влияние на релевантность ваших интернет-страниц оказывают такие факторы внешней оптимизации ресурса, как:

Плотность ключевых слов в документе (оптимально от 5% до 20%).

Имя домена.

Текст ссылок на ваш сайт с внешних ресурсов.

Содержимое атрибута ALT у изображений на вашем сайте.

Смысловое наполнение тега.

Выделение ключевых слов в контенте при помощи использования специальных тегов, таких как , .

3. Особенности поисковой системы go.mail.ru.

В данном разделе речь пойдет о молодой поисковой системе go.mail.ru, являющейся частью крупного портала mail.ru. До недавних пор, данный портал и сама поисковая система использовала в своей работе то сервис поиска «Яндекс», то Google. Сейчас же портал начал использовать для поиска по зарубежным ресурсам результаты поиска Google, а для поиска по отечественным ресурсам был разработан собственный движок в 2006 году под названием GoGo.ru и каждый год он подлежит совершенствованию. О принципах работы и особенностях данного поисковика еще малоизвестно, но кое-какие моменты все-таки пользователи знают.

Пожалуй, к особенностям поисковика портала mail.ru можно отнести социализацию. Это связанно с тем, что портал включает в себя социальные сети, такие как МойМир и Одноклассники, а так же другие форумы и вопросники, где люди общаются друг с другом и обмениваются информацией. Инновационными функциями социализации поиска на портале mail.ru является поиск людей в соц. сетях, поиск товаров на сервисе mail.ru, поиск в проекте «Ответы Mail.ru».

Поиск go.mail.ru очень чувствителен к наличию ссылочной массы на ваш ресурс, если ссылочная масса большая, то ждите большой трафик с этого поисковика.

В будущем разработчики обещают интегрировать в поисковик функцию поиска по регионам, но пока это лишь обещания.

E-mail: [email protected]

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

Браузер - это окно в интернет. Многие держат его открытым целыми днями: мимо него бежит лента новостей, в нём мы наблюдаем за жизнью наших друзей, к нему обращаемся, когда хотим что-то найти. Но интернет не всегда выглядел так, как мы привыкли. Вернее, долгое время он вообще никак не выглядел.

В браузере мы видим не интернет, а Всемирную паутину, или веб. Сам интернет - это инфраструктура, комплекс сетей, в которые объединены компьютеры по всему миру. А веб - способ наглядно представить хранящуюся на них информацию в виде связанных между собой страниц. На этих страницах могут быть текст, картинки, видеоролики, разнообразные кнопки, ссылки и многое другое. Чтобы все эти элементы работали и отображались корректно, страницу нужно открыть в специальной программе. Эта программа и есть браузер.

Немного истории

Прообраз современного веба и, соответственно, первый браузер появились в 1991 году в ЦЕРН - европейской организации по ядерным исследованиям. Один из её сотрудников, Тим Бернерс-Ли, придумал провязать научные документы гиперссылками и решить таким образом проблему поиска информации в огромном архиве института. Первый браузер назывался WorldWideWeb и выглядел примерно вот так.

Браузер WorldWideWeb в 1993 году. Источник - страница Тима Бернерса-Ли на w3.org

Там же, в ЦЕРН, появилась и первая веб-камера . Учёные, у которых была одна кофе-машина на несколько этажей, поставили рядом с ней камеру, которая несколько раз в минуту отправляла фотографии на их компьютеры - всё для того, чтобы можно было, не отрываясь от работы, узнать, есть ли в машине кофе.

В начале 90-х появились не только веб и первые браузеры - тогда же начинали работать первые коммерческие интернет-провайдеры. До этого интернет финансировался правительством и доступ в него был только в больших университетских центрах и военных организациях. Теперь же в сеть мог выйти любой человек с домашнего компьютера.

Интернет стал публичным, а с появлением веба и сравнительно простых в освоении браузеров вроде Mosaic и Netscape Navigator - ещё и наглядным. Из инструмента научного сообщества он постепенно стал превращаться в средство массовой коммуникации, а затем, с ростом аудитории, и в глобальную торгово-развлекательную площадку.

Последняя версия браузера Mosaic, выпущена в 1997 году. Источник - Википедия.

Сегодня сотни миллионов людей ежедневно ищут в сети информацию и новости, слушают музыку и смотрят фильмы, играют, общаются, покупают. Чтобы всё это стало возможным, браузерам пришлось многому научиться. Простейший пример - отображение нескольких страниц в одном окне. Вкладки стали появляться в популярных браузерах только в первой половине 2000-х - теперь же навигацию в сети без них трудно представить.

Из чего сделан Яндекс.Браузер

Первая версия Яндекс.Браузера была выпущена в 2012 году. Создавая его, мы использовали уже существующие наработки. Например, «движок» для нашего браузера мы выбрали такой же, как у Safari и Google Chrome - называется он WebKit. Чтобы объяснить, почему мы выбрали именно его, надо хотя бы в двух словах рассказать, что вообще делает движок.

Если коротко, то он собирает сайты по инструкции - примерно так же, как мы собираем мебель, которая приехала из магазина в нескольких коробках. Страницы сайтов становятся такими, какими мы привыкли их видеть, только на экране компьютера. Пока вы не смотрите на них через браузер, они существуют в виде документов со ссылками на «детали» (например, картинки, которые используются для фона и кнопок) и кодом, который определяет, как их надо соединить..

Это только маленькая часть кода страницы сайт - целиком он длиннее, чем вся эта статья.

У каждого движка есть свои особенности - именно поэтому один и тот же сайт может немного по-разному выглядеть в разных браузерах. Если создатель сайта не учитывает эти особенности, то какой-нибудь браузер может неправильно понять его инструкции и собрать что-то некрасивое или вообще неработающее. Мы не стали придумывать собственный «движок», чтобы разработчикам сайтов не приходилось адаптировать свои сайты ещё и под него. Вместо этого был выбран популярный WebKit, на который уже ориентируются большинство веб-разработчиков.

У WebKit есть несколько реализаций - наш браузер работает на той, что развивается в проекте Chromium. Им занимаются сразу несколько крупных компаний - причём ко всеобщей выгоде. Если одна компания придумывает какое-то техническое улучшение, от этого выигрывают все (если интересно, например, о том, как разработчики Яндекс.Браузера помогли значительно ускорить все программы на основе Chromium). Кроме того, это позволяет совместно продвигать современные веб-стандарты, то есть делать интернет удобнее и безопаснее.

Что делает Яндекс.Браузер особенным

Самый очевидный ответ - это дизайн. С самого начала мы старались сделать так, чтобы интерфейс не был громоздким. Наш идеал браузера - это не просто окно, а «панорамное окно» в интернет: во весь экран и с минимум деталей. Какое-то время мы вообще пробовали сделать прозрачный браузер - этот проект назывался Кусто. Тестирование показало, что далеко не все пользователи готовы к таким переменам, зато некоторые нововведения, вроде анимированных фонов и умной поисковой строки, многим пришлись по душе. В той версии Яндекс.Браузера, над которой мы работаем сейчас, лучшие идеи, опробованные в Кусто, сочетаются с классическими интерфейсными решениями. Теперь наш браузер выглядит вот так.

Это Яндекс.Браузер для Windows. Версии для Mac OS и Linux пока выглядят иначе.

Дизайн - это не только внешний вид, но и практичность. В Яндекс.Браузере есть много незаметных на первый взгляд решений, которые делают его удобным. Например, чтобы увидеть Табло со ссылками на часто посещаемые сайты, необязательно открывать новую вкладку, достаточно нажать на адресную строку. Благодаря этому путь до нужной страницы сокращается на один шаг.

Той же цели - сэкономить время и клики - служит нашего браузера. Используя данные Яндекса о популярных поисковых запросах, она может подсказать адрес нужного сайта, даже если вы на нём никогда не были, и предложить перейти на vk.com человеку, который забыл переключить раскладку и успел напечатать «млюс». На некоторые простые вопросы - вроде [курс доллара], [погода в самаре] или [формула объема шара] - Умная строка может ответить самостоятельно, так что пользователю даже не придётся переходить на новую страницу, чтобы получить информацию.

Другой пример продуманного дизайна тоже связан с адресной строкой. В она расположена внизу экрана, а не наверху, как у большинства браузеров, - просто потому что так до неё удобнее дотянуться большим пальцем. Экраны смарфтонов становятся всё больше, а наши пальцы пока не удлиняются, вот и приходится с этим считаться.

Ещё одна особенность нашего браузера состоит в том, что он сам ищет для вас интересную информацию. Открыв новую вкладку, вы увидите внизу блок, озаглавленный «Дзен: ваши персональные рекомендации». В нём собираются статьи и видео на темы, которыми вы обычно интересуетесь. Уникальность в том, что за составление ленты публикаций отвечает машинный интеллект : он собирает их не из тематических RSS-подборок, а со всего интернета - с помощью поисковых технологий Яндекса. Если Дзен заметит, что у вас появились новые интересы, он начнёт учитывать их при составлении ленты.

Чтобы пользоваться браузером было комфортно, он должен быть не только красивым и удобным, но и ещё и быстрым и безопасным. За последнее в Яндекс.Браузере отвечает - комплекс технологий, которые берегут пароли, блокируют мошеннические сайты, позволяют без приключений подключаться к публичным сетям Wi-Fi и оплачивать услуги в интернете. Со скоростью помогает режим . Он автоматически включается при медленном соединении и ускоряет загрузку страниц. Это происходит за счёт уменьшения объёма данных: «тяжёлое» содержимое страницы - обычно это видео и картинки - сжимается на серверах Яндекса и только после этого передаётся пользователю. В результате экономится не только время, но и трафик.

Если вам интересно следить за тем, как развивается Яндекс.Браузер, вы можете установить его
и участвовать в тестировании новых возможностей Браузера.

Здравствуйте, уважаемые читатели блога сайт. Если вы еще не знакомы, то хочу представить вам один из самых популярных онлайн сервисов рунета под названием Яндекс. Существует он аж с 1996 года и на заре своего становления это была исключительно только .

Давайте вопрос «что такое Яндекс сегодня» чуток отложим, а поговорим о том, откуда появилось такое странное название. Почему именно Яндекс ? По этому поводу существует несколько трактовок и все они отвечают на поставленный вопрос.

Правда только одна из них отражает реальный ход размышлений автора этого сверхпопулярного сейчас слова, коим был один из отцов-основателей этой поисковой системы — Илья Сегалович (к сожалению, ушедший от нас в середине прошлого года).

Почему Yandex называется Яндексом?

На приведенном фото он крайний слева. Рядом с ним стоит его соратник и второй основательно Яндекса — Аркадий Волож. Ну, а справа стоят Сергей Брин и Ларри Пейдж — . Это фото сделано в начале нашего века, когда компания Google планировала купить наш отечественный поисковик и ее руководители приезжали в Россию для переговоров, но сделка так и не состоялась.

Итак, перед Ильей стояла нелегкая задача — выбрать название для будущего поисковика (еще не доступного в то время через интернет) и при этом не ударить лицом в грязь. За основу было взято ключевое для поиска слово index (читайте про то, и как важен для них индекс, и что это вообще такое).

Было принято решение, что словообразующей фразой станет «yet another indexer», что в переводе означает «еще один индексатор». В общем, довольно-таки скромно и без всяких заявок на будущий ошеломляющий успех. Английский язык тогда в России был « » и, естественно, что поисковая система первоначально получила название именно на латинице: YANDEX (Yet Another iNDEXer).

Однако, основной фишкой Яндекса в то время (да и сейчас тоже) являлось то, что он ищет ответы в интернете . Кроме него в то время это делал только , который сейчас уже не является полноценным поисковиков. В общем, отцы-основатели решили, что нужно добавить в начале русскую букву Я вместо английской Y и получилось ЯNDEX . Это уже можно было интерпретировать, как Языковой INDEX.

В то время его главная страница выглядела так (дизайн Темы Лебедева):

В 2008 году мода на написание названий компаний латинскими буквами сошла на нет и ЯNDEX стал называться просто Яндексом .

Есть еще несколько трактовок, почему Яндекс называется именно Яндексом , и несмотря на то, что они вполне логичны и лаконичны, появились они уже после утверждения официального названия. Одну из них я уже упоминал — Языковый iNDEX.

Ну, а вторая гласит, что если взять в слове index первую букву «I» и , то как раз и получится местоимение «Я» — отсюда и ЯNDEX. Версия красивая, но несколько отличная от произошедшего в реальности.

Что такое Яндекс и что он представляет из себя сегодня?

Как я уже упоминал, на заре своего становления этот онлайн сервис был исключительно поисковой системой. Он и сейчас ею является, причем его доля на рынке рунете весьма весомая и составляет более шестидесяти процентов.

Но время текло и все менялось. С каждым новым годом существования Яндекс обрастал все новыми и новыми сервисами и возможностями. Некоторые из них дошли до нашего времени неизменными, некоторые изменились, объединились или даже закрылись, как, например, .

Сейчас, если Вы ищите товар, то наверняка обращаетесь к , чтобы подобрать оптимальный по цене и отзывам магазин. Если едите куда-то, то переходите на с отображением дорожной обстановки (пробок).

Для многих этот онлайн сервис стал порталом, с которого они ежедневно начинаю свой серфинг по интернету. Это особенно удобно потому, что , подобно рабочему столу в Виндовс, имеет возможность добавления виджетов, настройки внешнего вида за счет использования тем, а также с нее доступны все остальные сервисы этого мега-портала.

Так что же такое Яндекс ? Одним словом и не ответишь. Давайте я перечислю все сервисы собранные под его крылом, о которых мне довелось подробно писать. Наверное, так будет гораздо проще и нагляднее.

  1. — в отличии от Гугла, зеркало рунета изначально приняло решение об использовании своей главной (стартовой) страницы для удобства пользователей.

    Ну, и по аналогии с был введен Паспорт, который действителен на всей территории всех владений этой поисковой системы.

  2. — то место, куда все владельцы сайтов добавляют свои ресурсы, чтобы следить за их индексацией и видимостью в этой поисковой системе.

  3. — наверное, вторая по популярности после платежная система в рунете. Хотя, если брать в расчет , то получается, что третья.

  4. — здесь можно заказать рекламу ваших товаров или услуг на страницах поиска (реклама отображается сверху или снизу поисковой выдачи).

  5. — очень популярный среди Россиян сервис, ибо он предоставляет информацию о дорожных пробках, позволяет прокладывать маршруты и создавать свои собственные (народные) карты.

  6. — это оборотная сторона Директа. Дело в том, что Yandex обладает отлаженной системой работы с контекстной рекламой, так почему же ему ограничиваться лишь своей собственной поисковой выдачей (страницей с результатами поиска)?

    В общем, если у вас есть свой сайт с ежесуточной посещаемостью большей или равной 300 уникальных посетителей в сутки, то регистрируйтесь в Профит Партнере(официальном центре обслуживания партнеров РСЯ) и зарабатывайте, получайте призы и партнерские вознаграждения. Без балды — это .

  7. — система , которая отличается от аналогичного инструмента Гугла (Аналистикса) тем, что имеет интуитивно понятный и нарядный интерфейс, а также проста в освоении.

  8. — на рынке рунета успешно конкурирует с , ну и оттягивает на себя часть пользователей от Джимейла.

    По функционалу новая инкарнация Yandex Mail не сильно уступает последнему, а в некоторых аспектах даже превосходит. Например, имеется бесплатная возможность получения , что в Гугле сейчас стало стоить малую копеечку ().

  9. файловое хранилище, которое призвано стать реальной альтернативой Дропбоксу (читайте про то, ) или .

  10. — новый сервис предлагающий пользователям свежую подборку материалов по интересующим их тема. Подборка формируется автоматически на основе предпочтений каждого конкретного пользотеля. Подробнее о сервисе читайте по приведенной ссылке.
  11. поисковый движок любой СМС, на которой будет работать ваш сайт, всегда будет хуже, чем данный инструмент. Поэтому не примените его установить, ну или его аналог от Гугла.
  12. — это не сервисы, но важные инструменты, с помощью которых компания оценивает статический вес всех проиндексированных документов, а обычные пользователи могут оценить, за какую цену стоит продавать или покупать ссылки с определенных сайтов (читайте про , вечных ссылок или )
  13. — почивший в бозе (а точнее в Юкозе) бесплатный конструктор народных сайтов. Раньше не нем можно было создавать бесплатные сайты или хранить и передавать файлы (последнюю функцию на себя взял описанный чуть выше Диск)
  14. — довольно популярная надстройка над браузерами, которая, правда, самой поисковой системе гораздо нужнее, чем пользователям (установка поиска по умолчанию, домашней страницы, сбор пользовательских предпочтений и т.п.).

    Да, все это не так агрессивно реализовано, как у , но что-то общее имеется.

  15. — раньше подобная штука была в Опере (экспресс-панель), но благодаря нашему герою, теперь эти закладки можно использовать в любом браузере (устанавливаются ).

  16. — сделан на том же движке, что и Гугл Хром, но обладает рядом индивидуальных особенностей, которых нет у конкурентов.

  17. — набор кнопок для добавления анонсов статей на сайте в популярные социальные сети. Статистику этого блока можно отслеживать в Метрике.

  18. — это не сервис и не инструмент, а просто констатация того, что эта поисковая система пока еще не способна в реальном времени и обновляет поисковую выдачу дискретно через определенные неравнозначные временные интервалы, которые и принято называть апом.
  19. — может искать не только по введенным в поисковую строку словам или фразам, но и осуществлять , которую вы загрузите со своего компьютера или укажите ее местоположение в интернет.

  20. — онлайн сервис подобный .
  21. — ну, конечно же, это далеко еще не Google translate, но тоже дает очень неплохой перевод, правда на гораздо меньшее число языков.

  22. — поможет вам измерить скорость интернет канала, которым вы пользуетесь.
  23. — сервис очень удобный и вполне претендует на звание лучшего в рунете.

  24. — самый популярный каталог сайтов всего рунета, но, к сожалению, попасть туда даже на платной основе удается далеко не всем.
  25. — первый помощник тем, кто уже усвоил , ибо позволяет собрать , чтобы потом писать под них статьи.
  26. — очень специфическая вещь, которую в двух словах не объяснишь, но вы можете прочитать статью приведенную по ссылке.

Думаю, что теперь, хотя бы в общих чертах, вам стало ясно, что такое Yandex и насколько он велик и могуч. Спасибо.

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Виджеты Яндекса - как настроить и сделать главную страницу более информативной и удобной именно вам Яндекс Плюс - как получить пакет платных услуг за сущие копейки