Большая энциклопедия нефти и газа. Понятие и виды информационно-поисковых систем

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Автоматизированная поисковая система - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций .

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Информационно-поисковая система - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска .

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WorldWideWeb). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

История развития ИПС

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост- компьютерами Internet.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост- компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения .

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы World Wide Web и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети .

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

Основой всех поисковых систем составляют базы данных - совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.

Можно выделить следующие элементы функционирования информационных систем:

Сбор информации - организованный в специальном порядке процесс сбора и отображения информации:

Получение информации;

Оценка относимости информации;

Порядок отбора и фиксации информации.

Комплектование - процесс сложения информации из множества частей в единое целое и доведения её до пользователя.

Поиск и выдача информации - установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.

Поддержание целостности и сохранения информации - пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно - инструктивных документов.

По характеру предоставления логической организации хранимой информации информационные системы разделяются на фактографические, документальные и геоинформационные.

Фактографические информационные системы накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных информационных системах единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируется, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию.

В геоинформационных системах данные организованы в виде отдельных информационных объектов, привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Другим критерием классификации поисковых систем являются функции или решаемые задачи. По данному признаку различаются справочные, поисковые и расчётные системы.

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно - логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры.

Таким образом, к основным функциям ИПС можно отнести:

Хранения больших объемов информации;

Быстрого поиска требуемой информации;

Добавления, удаления и изменения хранимой информации;

Вывода информации в удобном для человека виде.

Различают: - автоматизированные (coputerised);

Библиографические (reference);

Диалоговые (online);

Документальные и фактографические информационно-поисковые системы.

Информационно-поисковые системы в последнее время начали ускоренно развиваться, появляются новые системы, они широко рекламируются и продаются. Это обусловлено значительно возросшей потребностью общества в эффективной работе с правовой и нормативно-технической информацией и использованием при этом компьютерных информационно-поисковых систем. Широкое распространение поисковых систем явилось подлинным прорывом в области информатизации в России и дало возможность техническим специалистам предприятий получить свободный доступ к правовым и нормативно-техническим документам.

Качество принятых специалистом решений зависит от количества обработанной информации. В современных условиях обойтись без мощного и удобного инструмента, помогающего в поиске и обработке информации, невозможно. Эффективное использование поисковых систем зависит от того, насколько технический специалист знает специфику, возможности и область применения этих новых информационных систем.

Создание современных систем хранения информации осуществляется двумя основными способами: с использованием иерархической и гипертекстовой моделей. В иерархической модели используется многоуровневая рубрикация при классификации информации. Для поиска документа используется его краткое описание, составляемое при вводе информации в систему. Современная гипертекстовая модель позволяет в электронных документах использовать ссылки на другие документы.

Опыт эксплуатации различных систем обработки и поиска информации, основанных на таких моделях указывает на то, что они не лишены недостатков. Обе системы требуют значительных материальных затрат на разработку и формирование, а значит, ограничены в объемах хранимой информации. Формирование рубрикаторов и ссылок производится специалистами, а их представление об информации и представление пользователя могут различаться.

В организациях создаются ИПС ручного типа, механизированные и автоматизированные. ИПС включает регистрацию и индексирование документов, создаваемые на их основе информационно-поисковые массивы (картотеки, массивы на машинных носителях), оперативное хранение документов.

Для достижения информационной совместимости поисковых массивов организаций отрасли необходима централизованная разработка классификаторов: типовой номенклатуры дел; классификатора корреспондентов; классификатора структурных подразделений (при наличии типовых структур); классификатора названий видов документов; классификатора вопросов деятельности организации; классификатора вопросов, содержащихся в предложениях, заявлениях, жалобах граждан и др.

Межотраслевая информационная совместимость ИПС обеспечивается применением ОК ТЭИ; при применении внутрисистемных классификаторов должна быть предусмотрена возможность перехода на коды ОК ТЭИ справочные или контрольно-справочные, по которым отслеживается ход выполнения документов или их использование. Основой систематизации в этих массивах является, как Различаются несколько самостоятельных видов ИПС:правило, дата (срок) исполнения;

  • 2 контрольно-справочные по документам ограниченного доступа, как правило, в пронумерованных, прошитых и опечатанных журналах;
  • 3 контрольно-справочные по предложениям, заявлениям и жалобам граждан, в которых основой систематизации является тематика поднятых в обращениях граждан вопросов;
  • 4 справочные (кодификационные) по нормативно-правовым актам, отражающим вопросы деятельности (правовую среду) организации. В системах этого вида самостоятельно учитывается каждый вопрос, о котором имеется информация в документе, а основой систематизации также является тематика нормативных положений.При изъятии документов из обращения или их отмены информация в ИПС аннулируется, но не уничтожается, а передается в архив организации вместе с документами.

Справочные картотеки делятся на две части: неисполненные и исполненные документы, РКК в которых систематизируются по следующим признакам:

предметно-вопросному или тематическому (в соответствии с содержанием документов или сферой деятельности, к которой относятся документы);

  • 1. по номенклатуре дел (в соответствии с названиями дел по номенклатуре дел или их индексами);
  • 2. корреспондентскому (по наименованиям или условным обозначениям организаций, с которыми ведется переписка);
  • 3. по исполнителям (по структурным подразделениям);
  • 4. алфавитному (в алфавитном порядке фамилий, наименований объектов или предметов);
  • 5. географическому (по наименованиям административно-территориальных единиц);
  • 6. номинальному (по названию видов или разновидностей документов);
  • 7. регистрационному (по порядку возрастания регистрационных номеров документов).

Выбор поискового признака определяется в зависимости от видов документов и характера информационных запросов.

Первая часть картотеки служит для поиска сведений о документах в процессе их исполнения. Вторая часть картотеки служит для поиска исполненных документов.

По мере исполнения документов РКК с необходимыми отметками перемещаются из первой части картотеки в соответствующие разделы и рубрики второй;

В зависимости от объема документооборота,системы регистрации и контроля исполнения документов, задач поиска может вестись единая справочная ИПС или несколько самостоятельных. Отдельные картотеки (базы данных) формируются на входящие документы, инициативные исходящие документы, обращения граждан. При большом количестве нормативных правовых актов и распорядительных документов, используемых в деятельности организации, на них могут создаваться отдельные кодификационные картотеки (базы данных).

Перечень наименований баз данных аналогичен перечню наименований картотек.

Учет объема документооборота:

  • 1. объем документооборота - количество документов, полученных (входящие) и созданных (внутренние, исходящие) организацией за определенный период времени;
  • 2. подсчет количества документов производится по регистрационным формам в местах их регистрации.

За единицу учета принимается один экземпляр документа без учета копий, создаваемых при печатании и размножении. Каждый документ учитывается один раз. Приложения к документу учитываются вместе с ним как один документ.

Отдельно учитываются полученные и созданные организацией документы, обращения граждан.

Размноженные экземпляры (копии) учитываются отдельно по журналам работ в машинописном и копировально-множительном бюро и (или) по спискам рассылки.

В организации может проводиться полный и выборочный учет объема документооборота (по всей организации, по структурным подразделениям, по группам документов и т.д.).

Учет и анализ объема документооборота в организации осуществляются под руководством службы ДОУ;

Результаты учета объема документооборота обобщаются службой ДОУ и представляются руководству организации для выработки мер по совершенствованию работы с документами;

Сведения об объеме документооборота используются для установления структуры и штатной численности службы ДОУ, выбора технологии работы с документами и средств автоматизации делопроизводства, определения степени загруженности службы ДОУ и отдельных работников. Информационно-поисковые системы играют существенную роль в решении важнейших задач архивных учреждений: интенсификации процессов архивной эвристики, повышения скорости и результативности решения поисковых задач по всем темам и комплексам документов, на всех уровнях поиска; расширении доступа пользователей к документной информации (так как ограничение доступа зачастую не связано с наличием грифа конфиденциальности, а вызвано недостаточным качеством научно-справочного аппарата, существенно затрудняющим работу исследователей); повышении интенсивности и эффективности использования архивных документов по всем формам использования, разнообразия информационных услуг, оказываемых архивами, в том числе на договорной основе; развитии межархивного и международного сотрудничества на основе информационного обмена, реализация совместных проектов по введению в научный оборот значимых комплексов исторических источников.Теория информационного поиска начиналась с исследования особенностей документальных информационно-поисковых систем (ИПС). Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы.

Информационно-поисковые системы ориентированы на решение задач поиску информации, документа или факта в множестве источников информации (документов). Содержательная обработка информации в таких системах отсутствующая. Производят ввод, систематизацию, хранение, выдачу информации по запросу пользователя без сложных преобразований данных. Например, информационно-поисковая система в библиотеке билетов. В таких системах хранится информационный массив, из которого по требованиям пользователей выдается нужная информация. Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную.

Поисковый образ документа (ПОД) получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Запрос к ИПС описывается также на этом языке. Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ.

Информационно-поисковые системы делятся на два типа.

  • Документальные (документографические)

Это системы, в которой объектом сохранения и обработки есть собственно документы.. В такой ИПС все хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа. Именно так ищут книги по заказам читателя в больших библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По требованию читателя сначала находят карточку в каталоге, а потом по шифру, указанному на ней, отыскивается и сама книга. Различия документографических ИПС определяются тем, как устроен поисковый образ документа. В простейшем случае это просто его индивидуальное название (например, название, автор, год издания книги). В более сложных случаях нет однозначного соответствия между поисковым образом документа и самим документом. Вполне возможен случай, когда поисковый образ документа соответствует нескольким различным документам и, наоборот, один и тот же документ соответствует не одному, а нескольким поисковым образам.

  • Фактографическая информационная поисковая система - ИПС

Это система, где, объектом или сущностью есть то, что представляет для проблемной сферы многосторонний интерес (сотрудник, договор, изделие и т.п.). Ведомости об этих сущностях могут находиться во множестве разных входных и исходных сообщений.. В отличие от документографических ИПС в ИПС такого типа хранятся не документы, а факты, относящиеся к какой-либо предметной области . Хранимые факты могут быть извлечены из различных документов. В базе фактов они связываются между собой системой разнообразных отношений. Такая сеть в ИПС носит название тезауруса предметной области. Запросы, поступающие в фактографические ИПС, используют тезаурус для поиска ответов на запросы. Поиск осуществляется методом поиска по образцу, широко применяющемуся в базах знаний систем искусственного интеллекта. ИПС фактографического типа постепенно приближаются по своей организации и функционированию к развитым базам данных и знаний.

Тема: Информационно - поисковые системы.

1. Общие сведение о информационно-поисковых системах (ИПС). Основные определения.

2. Функционирование ИПС. Схема функционирования поисковой системы.

3. ИПС, базирующиеся на классификации.

4. Организация ИПС на поиски по ключевым словам.

5. Метасистемы.

6. Развитие информационно – поисковых систем.

Ключевые слова

Поиск информации, электронные каталоги, информационно – поисковая система, классификация, ключевые слова, метаданные, объём информации, анализ документа, поисковый образ, запрос, релевантность, атрибут, метасистема, рубрикация, информационные ресурс, эффективность, библиотечные каталоги, технология, портал, образовательная срда, пользователи, архитектура, автоматизированная система.

В последние годы сеть интернет стала основным хранилищем информации. С ростом объёмов хранимых данных стала актуальной проблема информационного поиска. Для облегчения поиска на открытых для доступа сайтах в интернет используют информационно – поисковые системы (ИПС) и электронные каталоги.

В ИПС собираются, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе Web – серверов. Индексирование включает создание поисковых образов документов. Обычно в поисковый образ входят или все значащие слова, имеющиеся в документе, или только слова из заголовка.

Информационно – поисковая система программная система для хранения, поиска и выдачи интересующей пользователя информации. Информационно – поисковая система выполняет анализ документов, создание и хранение поисковых образов документов, анализ запросов пользователей, поиск и выдачу пользователю данных о месте расположения в сети запрашиваемых документов.

В основе поиска лежит сопоставление запроса пользователя с поисковыми образами документов, в результате отбираются релевантные документы, т.е. документы, чьи поисковые образы соответствуют запросу. Во многих ИПС пользователю представляется возможность обращаться к серверу с запросами на естественном языке, а также со сложными запросами, включающими логические связки. Примерами таких ИПС могут служить системы Excite, Lycos, Altavista и другие. Для функционирования Altavista в своё время фирма DEC выделила несколько компьютеров, в том числе десятипроцессорную машину Alpha – 8400.

Поисковые образы, называемые также метаописаниямиили метаданными , могут представлять собой значения атрибутов документов или множество ключевых слов. Поиск на основе этих двух вариантов поисковых образов называют атрибутивным и контекстным поиском. Часто используют сочетание этих двух способов поиска.



Поиск в электронных каталогах основан на составлении запроса с разделами информации в иерархической структуре её классификации.

Классификацию информации называют рубрикацией . Наиболее сложной является разработка тематической рубрикации. В мире существует ряд систем тематической рубрикации. Та, в России широко известны иерархические системы УДК (универсальная десятичная классификация) и ГРНТИ (Государственные реестр научно – технической информации). Однако, они громоздки и неудобны для использования в электронных каталогах и образовательных ИПС. Поэтому существует ряд частных систем рубрикации с несколькими уровнями иерархии.

Отметим, что если в ИПС создание поисковых образов осуществляется автоматически, то в электронных каталогах структура информационных ресурсов определяется квалифицированными людьми.

Примеры поисковых систем, работающих по принципу электронного каталога: Yahoo!, Galaxy, Looksmart, Yandex. Так, в Yahoo! На верхнем уровне иерархи выделено 14 категорий (например, искусство и гуманитарные науки, образование, бизнес и экономика, наука и др.) Пользователь при поиске осуществляет навигацию по разделам иерархического дерева, спускаясь от верхнего уровня до искомого конечного, на котором он получает сведения об адресах сайтов с нужными информационными ресурсами. Объем информационного пространства в упомянутых системах довольно велик. Так, в системе Yahoo! Была собрана информация 1 800 000 сайтов.


Функционирование информационно – поисковой системы

Общая схема функционирования традиционной ИПС представлена на рис.

Рис. 1. Схемы функционирования ИПС.

Основными процессами в ИПС являются индексирование документов и поиск документов по запросу пользователя. Процесс информационного поиска происходит следующим образом. Пользователь выражает свои информационные потребности в виде специального текста – информационного запроса к ИПС. Система формирует из информационного запроса поисковое предписание , переводя запрос на информационно – поисковый язык (ИПЯ). ИПЯ представляет собой формальный язык, который используется внутри ИПС для представления пользовательского запроса и хранимых документов. Описание документов на ИПЯ называется поисковым образом документа. В процессе поиска ИПС должна выбрать из массива документов те, которые содержательно релевантны запросу, то есть соответствуют информационным потребностям пользователя, выраженным в запросе. Такое определение релевантности не формально, поэтому определяют формальную релевантность , как соответствие, определяемое алгоритмически, путем сравнения поискового предписания и поискового образа документа. Критерий выдачи документа – поискового образа документа и поискового предписания, по которому принимается решение о выдаче некоторого документа в ответ на информационный запрос.

В процессе индексирования, для каждого документа, хранящегося в системе, строится поисковый образ. Различают 2 основных подхода к построению поискового образа –приписывающее и выводящее индексирование. В первом случае в процессе индексирования документу присваивается номер ключевых слов из некоторой классификационной системы, и документ помещается в общую классификацию. Во втором случае из документа выбирается набор ключевых слов и объявляется поисковым образом, с которым далее работает ИПС.

Традиционные ИПС осуществляют как поиск, так и хранение документов. В отличие от традиционных ИПС, ИПС для поиска информации в интернет не могут осуществлять фукнцию хранения документов, что приводит к необходимости другого подхода к организации работы ИПС.

Рассмотрим основные классы промышленных ИПС для поиска информации в интернет.

ИПС, базирующиеся на классификации.

В целом, схема работы такой ИПС в Интернет аналогична схеме работы традиционной ИПС. Общая схема работы ИПС на основе классификации показана на рис. 2.

Рис. 2.Общая схема работы ИПС базирующейся на классификации.

Основным отличием является появление процесса поиска новых документов. В традиционных ИПС новые документы вводятся в систему хранения оператором и индексируются. В ИПС, ориентированных на работу в Интернет, ввод новых документов осуществляется либо вручную оператором, либо автоматически с помощью специальной программы обхода Интернет – индексирующего робота. Применение для информационного поиска в интернет ИПС базирующихся на классификации эффективно в случае, когда классификационная система построена по узкой предметной области.

Основных недостатков два:

1. Для качественного поиска они вынуждены выкачивать из Интернет все документы для индексирования и хранения их у себя. Это приводит к большому объёму хранимой информации, высокой нагрузке на сеть и необходимости постоянно обновлять информации в базе;

2. Поиск документов пользователем может осуществляться только по используемой классификационной системе.

ИПС, базирующиеся на поиске по ключевым словам.

ИПС базирующиеся по ключевым словам позволяют искать Web – страницы о их содержанию, формируя запрос в виде ключевых слов, которые должны присутствовать в документе. В настоящее время, системы поиска по ключевым словам представляют собой наиболее распространенные ИПС в интернет.

На рис. 3 показана общая схема работы системы поиска по ключевым словам. Основными процессами в работе системы является поиск новых документов индексирующим роботом, индексирование найденных документов и выполнения запроса пользователя.

Индексирующий робот представляет собой автономный процесс, постоянно или периодически обновляющий и пополняющий базу документов. Изначально роботу дается список Web – серверов, которые необходимо проиндексировать. В процессе работы индексирующий

Рис. 3. Общая схема работы системы по ключевым словам.

Робот осуществляет обход Web – серверов по гиперссылкам между страницами и собирает все найденные документы в базу документов, а ссылки - в базу ссылок. Таким образом, на основе начального списка серверов строятся документы для всех достижимых Web – страниц. Периодически, индексирующий робот проверяет хранящуюся информацию на корректность и целостность путем повторного обхода проиндексированных страниц.

По известным ИПС документам строится индекс, позволяющий эффективно осуществлять поиск по ключевым словам. Дальнейшее хранения всего документа после индексирования ненужно, для экономии дискового пространства хранится короткий поисковый образ. Запрос пользователя представляет собой набор ключевых слов с булевыми связками. Выбор документов по запросу осуществляется с помощью индекса. ИПС возвращает в ответ на запрос список ссылок на документы.

Достоинством систем поиска по ключевым словам является простота использования. К недостаткам можно отнести следующие особенности.

1. В ответ на запрос выдается много нерелевантной информации. Это происходит из-за того, что с помощь. Списка ключевых слов практически можно сформулировать информационные потребности пользователя.

2. Индексирующие роботы сильно загружают сеть. Так как робот не имеет возможности перемещаться по сети, он вынужден скачивать большие объемы информации для локальной обработки (объём информации исчисляется терабайтами).

3. Невозможность работы с часто изменяемой информацией.

4. Охват Интернет любой из имеющихся систем поиска по ключевым словам не превышает 16%.

5. Возможность работы пользователя только в интерактивном режиме.

Метасистемы. Метасистемы для ИП в Интернет, являются надстройками над существующими системами поиска по ключевым словам. Они позволяют преодолеть следующие недостатки промышленных систем поиска по ключевым словам.

Решение проблемы ИП в Интернет на сегодняшний день состоит не только в построении эффективных ИПС, но и в изменении структурной организации информации Интернет.

Технология поиска, основанная на упорядочении метаинформации наподобие библиотечных каталогов (классификация по содержанию) продолжает развиваться.

Однако поиск по ключевым словам во всем пространстве Интернет не всегда оказывается эффективным и может потребовать слишком много времени. Сделать работу пользователя корпоративной системы в интернет более эффективной позволяет технология порталов, применение языка разметки XML и языков поиска XPath или XQuery в базах XML – документов.

Контрольные вопросы и задания.

1. Какую информацию выполняют информационно – поисковые системы?

2. Что лежит в основе поиска информации?

3. Что представляют собой поисковые образы и каким образом осуществляется создание поисковых образов?

4. Приведите примеры ИПС.

5. Объясните и составьте общую схему работы ИПС, базирующейся на классификации.

6. Каким образом происходит поиск в ИПС по ключевым словам?

7. Какие недостатки имеет система поиска по ключевым словам?

9. По каким признакам классифицируется ИПС?

10. Приведите примеры поисковых систем по принципу электронного каталога.

11. Для каких целей в Интернет создают порталы?

12. Перечислите задачи, связанные с развитием ИПС.

Литература 2, 5, 13, 18.