Индексирование документов в Интернет

В процессе индексирования каждому документу информационного массива ставится в соответствие его поисковый образ. Вектор поискового образа имеет длину, равную размеру словаря системы, который составляют все пригодные для индексирования термины из всех документов.

Локальные ИПС по типу используемого словаря делятся на два класса:

- системы с контролируемым словарем,

- системы со свободным словарем.

Контролируемый словарь предполагает ведение некоторой лексической базы данных, добавление терминов в которую производится администратором системы. Все новые документы могут быть проиндексированы с помощью только тех терминов, которые находятся в словаре.

В свободный словарь термины добавляются автоматически по мере появления новых документов. При этом нужно регулярно проводить актуализацию (обновление) базы данных поисковых образов документов. На момент актуализации словарь фиксируется, и производится полная переиндексация документов. Процедура актуализации обычно занимает достаточно много времени из-за необходимости проиндексировать все документы, и система в момент ее актуализации недоступна. В течение эксплуатации системы (между процедурами обновления поисковых образов документов) база данных поисковых образов и словарь системы не меняются.

Тем самым в локальных ИПС обеспечивается главное условие применения векторной модели информационного массива: фиксированная мощность словаря.

Распределенный динамический информационный массив, которым является Интернет, не позволяет использовать словари фиксированной длины. Контролируемый словарь создать невозможно из-за непрерывного роста числа ресурсов и документов. Постоянно же переиндексировать все документы в сети с учетом вновь появляющихся невозможно из-за их громадного объема.

Чтобы актуализировать базу данных индексированных документов, ИПС Интернета осуществляют непрерывное сканирование сети. При этом из-за появления новых документов размер поискового информационного массива увеличивается, что приводит к увеличению объема словаря.

Для ограничения роста числа терминов в словаре в настоящее время документы индексируются с помощью 20-100 терминов из его содержания, имеющих наибольший вес. Вес индексационного термина обычно вычисляется по формуле. После создания поискового образа документа термины из него добавляются в словарь.

Необходимо отметить, что источником терминов индексирования в большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Это является еще одним из способов контроля размера словаря.