ПОИСКОВЫЕ МАШИНЫ В ИНТЕРНЕТЕ

ПОИСКОВАЯ СИСТЕМА В ИНТЕРНЕТЕ

В Интернете хранится огромное количество полезной информации, но на поиски нужной может потребоваться много времени. Это одна из основных проблем, послужившая поводом к появлению поисковых машин. Поисковые машины Интернета связаны с базами данных, которые содержат каталоги значительной части информации, доступной в Интернете. Поисковые машины снабжены программами, которые делают индексацию баз данных, а люди-библиотекари классифицируют, сортируют и превращают Web в открытую для поиска среду. Несмотря на то, что существует более 100 поисковых машин и инструментов просмотра, пользователи нередко испытывают неудовлетворенность, вызванную трудностями при поиске необходимой им информации. И основным вопросом на сегодняшний день остается не наличие той или иной информации в Интернете, а вопрос о том, где ее искать[17].

Поисковые машины состоят из трех основных элементов. Первым элементом является индексатор, или, как его еще называют, «паук». Индексатор считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же webсайта. Web-сайты просматриваются регулярно, раз в месяц или раз в два месяца; это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины, индекс, или, как его иногда называют, каталог. Это что-то вроде огромной книги, которая хранит оглавление каждой найденной индексатором web-страницы. При изменении web-страницы обновляется и информация о ней в индексе. Иногда новые страницы или изменения попадают в каталог не сразу. А пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины. Программное обеспечение поисковой машины — ее третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданной цели. Поисковые машины, разработанные для анализа web-сайтов, базируются на использовании запросов. Пользователь набирает слова или фразы, соответствующие интересующей его теме.

Специальная программа (паук) «ползет» по Web-у и, затем, используя специальные алгоритмы поиска, за несколько секунд находит требуемые данные. Отвечая на поисковый запрос, поисковая машина перебирает миллионы источников и находит адреса соответствующих документов. Поисковые машины выдают аннотированные списки гиперссылок на соответствующие Интернет страницы. Если щелкнуть мышью по гиперссылке, то соответствующий ей адрес будет использован для нахождения текста, изображений и ссылок на другом компьютере. Поисковые машины Интернета со своими огромными каталогами web-страниц непрерывно совершенствуют алгоритмы поиска и расширяют свою функциональность. Каждая поисковая машина обладает индивидуальностью (имеет свои особые характеристики) и работает по-своему. Работа многих поисковых машин считается вполне успешной. Однако все современные системы страдают некоторыми серьезными недостатками[18]:

1. Поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными.

2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. Методы индексирования баз данных, как правило, семантически не связаны с информационным содержанием.

4. Неадекватные стратегии поддержки каталогов часто приводят к тому, что выдаются ссылки на информацию, которой уже нет в Интернете.

5. Поисковые машины еще не столь совершенны, чтобы понимать естественный язык.

6. При том уровне доступа, который обеспечивают современные поисковые машины, практически невозможно сделать обоснованный вывод о полезности источника.

В последнее время потребности в интеллектуальной помощи быстро растут: помощь необходима для продуктивного поиска информации, для нахождения в необъятном Интернете или корпоративной сети специализированной информации. Это привело к появлению интеллектуальных агентов[19]. Обычно интеллектуальные агенты являются составной частью поисковой машины. Некоторые особо продвинутые программы похожи на живых ассистентов. Для поиска и сортировки информации используются технологии искусственного интеллекта. Такая поисковая машина «думает» и действует сама. Пользователь обучает агента, затем агент отправляется на поиски в Интернет, чтобы из миллионов доступных документов выбрать нужные и дать им оценку. Пользователь может в любой момент «отозвать» интеллектуального агента и посмотреть, как продвигается работа, или продолжить его обучение на основе найденной информации, что сделает поиск еще более точным. В таблице 3 приведены примеры интеллектуальных агентов и их характеристики.

Интеллектуальные агенты выполняют ряд инструкций от имени пользователя или другой программы, могут работать независимо и иметь некоторую степень автономности в сети. Между интеллектуальными агентами и Java-апплетами существуют некоторые различия. Java-апплеты загружаются из Интернета и работают на машине пользователя. Интеллектуальные агенты фактически выходят в сеть и ищут приложения, помогающие завершить задание, выполняют свою миссию удаленно, освобождая компьютер пользователя для других задач. Когда цель достигнута, они извещают пользователя об окончании работы и представляют ему результаты.

Интеллектуальные агенты способны «понимать», какая именно информация нужна пользователю. Агенты могут быть запрограммированы на изменение поведения в зависимости от накопленного опыта и взаимодействий с другими агентами. Обобщенные характеристики интеллектуальных агентов могут быть представлены следующим образом:

• Интеллектуальность — обучение на основе обратной связи, по примерам, ошибкам и посредством взаимодействия с другими агентами.

• Простота использования — можно «тренировать» агентов, используя естественный язык.

• Индивидуальный подход — агенты адаптируются к предпочтениям пользователя.

• Интегрированность — непрерывное обучение, применение уже имеющихся знаний к новым ситуациям, развитие ментальной модели.

• Автономность — агенты способны «ощущать» окружающую среду и реагировать на ее изменение, умеют делать выводы.

Таблица 3

Примеры интеллектуальных агентов и их характеристики[20].

Масштабы информационных ресурсов и их количество в Интернете непрерывно расширяются. Становится ясно, что централизованная база данных, характерная для поисковых машин, не является удовлетворительным решением. Интеллектуальные агенты — это совершенно новое направление, лежащее в основе следующего поколения поисковых машин, которые смогут фильтровать информацию и добиваться более точных результатов. Например, Hyperlink-Induced Topic Search Engine, разработанная Джоном Клейнбергом из Корнэльского университета. Эта поисковая система не занимается «охотой» за ключевыми словами. Система анализирует естественную структуру Web в поисках «сообществ» страниц, относящихся к конкретному предмету, затем выясняет, какие из этих страниц считаются значимыми с точки зрения самих авторов страниц. Эта идея аналогична показателям цитируемости, которые давно используются в академическом сообществе. Такой подход более эффективен и надежен, чем традиционный поиск по ключевым словам.