Общие принципы построения информационно-поисковых систем.

Информационные базы данных и электронные библиотеки

 

 

В Интернете системы поиска разрабатывались практически с самого начала. Как только число документов в какой-либо базе данных превышает критический уровень (обычно начиная с одной-двух сотен), появляется необходимость в их систематизации и каком-либо инструменте поиска. Когда устанавливается связь с сервером, возникает следующая задача - найти нужный документ или программу.

Для каждого более-менее значительного сервера разрабатывалось свое программное поисковое обеспечение, а на первом месте стояли команды поиска в описании его работы (help-файле) в начале 1990-х годов.

Позднее стали появляться надстройки, которые собирали информацию с разных серверов, обобщали и систематизировали ее.

Современный Интернет никому конкретно не принадлежит и никем конкретно не управляется. Если техническая сторона его регламентирована протоколами, то в отношении содержания он во многом развивается стихийно и поэтому не имеет четко выраженной структуры. Информация, которая собирается на каком-либо сервере, всецело зависит от вкусов и взглядов хозяина сервера. Сориентироваться в миллиардах документов без наличия специальных служб поиска практически невозможно.

В настоящее время существует большое количество таких служб. Возглавляет этот список десяток глобальных поисковых систем (поисковых машин), в которых содержится информация о миллионах документов.

Среди наиболее известных поисковых систем можно назвать англоязычные: AltaVista (altavista.com), Google (google.com), Excite (excite.com), Go.com (go. com), HotBot (hotbot.com), Yahoo! (yahoo.com), WebCrawler (webcrawler.com).

А среди русскоязычных: Aport (aport.com), Rambler (rambler.com), Yandex (yandex. com).

Некоторые серверы могут иметь свои поисковые системы. Они содержат много информации и проводят поиск по своим документам. Наконец, крупный сайт может иметь свой маленький поисковый механизм, который ищет нужные слова на своих страницах.

В каком пространстве производится поиск? Прежде всего в пространстве web-страниц. Однако кроме него можно производить поиск интересующих теленовостей, адресов электронной почты и даже поиск людей. Последние службы используют различные источники: от телефонных справочников до регистрационных списков пользователей разных служб. Отдельные машины производят поиск файлов.

Механизм поиска каждой машины-поисковика представляет собой ноу-хау фирмы. В основном это индексированные базы данных. Но темпы роста числа Web- и других документов в сети опережают скорость, с которой обновляются и пополняются базы данных. До недавнего времени эти базы обновлялись каждой службой самостоятельно, вручную или с помощью программ-пауков. В настоящее время нередки случаи разделения труда, когда поисковые серверы привлекают клиентов бесплатным поиском и собирают деньги с рекламодателей, а базы данных покупают у других специализированных компаний.