Структурно-функциональная организация типовой поисковой машины Internet

Сравнительный анализ информационно-поисковых систем

 

Прове­дем сравнительный анализ документальных, фактографических и гипертекстовых ИПС по ряду показателей. Результаты представим в табл. 3.1.

Таблица 3.1

Сравнительный анализ ИПС

Характеристика ИПС Виды ИПС
Документальные Фактографические Гипертекстовые
Полнота и шум kn max =0,5 kш max = 1 kn max =1 kш max = 0 kn max =0,9÷1,0 kш max = 0,1÷0,2
Систематизирующая информация Поисковые образы документов, мета-данные Значения атрибутов объектов предметной области Гипертекстовое представление документов, мета-данные
Тип поискового аппарата Информационно-поисковые языки с развитой грам-матикой Языки реляционного типа Гипертекстовый тезаурус
Трудоемкость подготовки инфор-мационного массива Требуется специ-альная лингвис-тическая подготовка сотрудника Требуется высокая квалификация сотрудника Относительно не-сложная подготовка по типам семан-тических связей
Структуры данных Прямые и инверс-ные списки Иерархические или реляционные струк-туры Семантическая сеть: вершины – понятия, ребра – отношения
Математический характер критериев поиска Логические и алгеб-раические выраже-ния Логические и алгеб-раические выраже-ния Семантические признаки
Тип собственного языка системы Специальные информационные языки (например, Сетка-5) Специальные языки (SQL, QBE) ОЕЯ предметной области

Обеспечение высокой точности и полноты поискового про­цесса не являются единственным критерием эффективности ин­формационно-поисковых систем. Не менее важным является и показатель быстродействия, то есть среднее время поиска одной структурной единицы, например, документа в БЗ. Эта проблема особенно актуальна для многомодульных иерархических баз зна­ний, содержащих значительное количество документов.

Таким образом, эффективность информационного поиска не­обходимо рассматривать в контексте обеспечения высоких харак­теристик точности, полноты и быстродействия.

 

Информационно-поисковые системы (поисковые машины) позволяют находить ресурсы Internet непосредственно по их тек­стовому содержимому. Функционирование поисковой машины включает два базовых процесса:

1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);

2) поиск по индексу по запросам пользователей.

Упрощенная структура типовой поисковой машины показана на рис.

Ее главными компонентами являются:

- программный агент, «перемещающийся» по сети и индексирующий ресурсы (web-страницы);

- база данных (БД) (индекс), содержащая информацию, соби­раемую агентом;

- программа поиска, применяемая пользователя­ми для поиска информации в БД.

На этапе индексирования поисковые машины реализуют сле­дующий примерный алгоритм работы.

1. Адреса web-узлов, включаемые в обрабатываемую область, определяются по гиперссылкам, ведущим из страниц данного web-узла. При этом используются различные модификации вол­нового алгоритма (например, с вычислением профилей узлов).

2. Агент либо переходит к индексированию очередного web-узла из сформированного списка, либо выполняет так называемое зеркалирование (дублирование) его содержимого на свой web-узел.

3. Производится собственно индексирование. Оно может быть полнотекстовым (обрабатывается весь текст) и неполнотекстовым (обрабатываются наиболее значимые части текста: заго­ловки, названия, ключевые поля, начальные слова разделов и т. д.).

4. Полученные данные о ключевых словах добавляются в БД.

5. Если был сделан зеркальный дубль, он стирается.

6. Пункты 2-5 повторяются для каждого адреса, полученного в п. 1.

Изложенный алгоритм соответствует некоторой канониче­ской структуре поисковой машины. Конкретные их реализации различаются по многим параметрам: поддержке простого и сложного поиска; учету различий строчных и прописных симво­лов; возможности поиска по частям слов и словосочетаниям; поддержке обработки запросов, содержащих логические операто­ры И, ИЛИ, НЕ; использованию специальных языков поиска ин­формации, значительно сокращающих его время (к сожалению, такие языки не стандартизованы, поэтому в разных поисковых машинах реализуются разные поисковые языки).

 

Рис. 4.3. Упрощенная структура типовой поисковой машины

К наиболее известным поисковым машинам относятся:

AltaVista, Google, Infoseek, Yahoo!, Lycos, Search, Excite, HotBot, AOL, MSN, About и др.

Недостатками работы поисковых машин являются:

- низкая интеллектуальность поиска документов в базе знаний — индекс составляется с помощью простейших программ-роботов, использующих индексы, состав­ляемые для произвольного запроса и, следовательно, не может быть ориентирован заранее на конкретную информацию или предметную область;

- упрощенность процедуры вычисления степени релевант­ности документа, а, следовательно, коэффициентов полноты и шума, на основе индекса;

- отсутствие средств полноценного расширения запроса пользователя с целью повышения полноты поиска информации.

- отсутствие средств для удобного уточнения результатов запроса

- найденные документы сгруппированы по принадлежно­сти к сайтам (месту размещения), а не по тематическому направ­лению содержания документов;

- должным образом не осуществляется индексация данных в табличном виде;

- большинство систем не предоставляет возможности уточ­нения поисковых отчетов по тематическому направлению содер­жания документов;

- в связи с разным форматированием одного и того же ин­формационного содержания документов на разных сайтах систе­мы не могут распознать одинаковых по содержанию документов.

Применение поисковых машин для поиска в Internet эффек­тивно, если пользователь представляет, какие ключевые слова характеризуют требуемые ресурсы.