Тема: Поисковые информационные системы

ЛЕКЦИЯ

План:

1. Поисковая служба

1.1. Поисковые каталоги

1.2. Поисковые указатели

1.3. Метапоисковая машина

2. Поиск информации в WWW

1. Поисковая служба

Всемирная паутина достаточно бессистемна. Каждый день в WWW появляются сотни новых Web-страниц. Среди документов WWW нет никакой внутренней структуры в от­личие от книгохранилища библиотеки, где каждую новую книгу помещают в определенный раздел, ставят на опреде­ленную полку определенного стеллажа в зависимости от ее назначения, жанра, тематики. Единственной координатой Web-документа является его URL-адрес. Однако URL-адрес никак не связан с содержанием документа. Как же в такой ситуации можно осуществлять поиск нужной информации?

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать (места размещение этих источников) и как искать (какие инструменты для этого использовать).

Каковы основные источники информации, представленные в Интернете? Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях.

Где эти источники информации размещаются? Это такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых - собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

ИПС (информационно-поисковая система) - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

В поиске информации в WWW пользователю помогает поисковая служба Интернета. Поисковая служба заключа­ется в услугах поисковых серверов. Существуют две разно­видности поисковых серверов: поисковые каталоги и поис­ковые указатели (поисковые системы, метапоисковые системы).

1.1 Поисковые каталоги

Если вам приходилось пользовать­ся услугами больших библиотек, то вы знаете, что такое библиотечный каталог. Существуют алфавитные каталоги и предметные каталоги. В алфавитных каталогах карточки с библиографическими данными книг разложены в алфавит­ном порядке фамилий авторов. В предметных каталогах карточки систематизированы по содержанию книг.

Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Систематизация в предметном каталоге производится по иерархическому принципу. На первом уровне иерархии весь книжный фонд делится на крупные разделы: художествен­ная литература, учебная литература, общественно-полити­ческая литература, научно-техническая литература и т. п. Каждый из этих разделов делится на подразделы; например, учебная литература делится на разделы высшего образова­ния, среднего образования, дошкольного образования. Кни­ги для среднего образования могут делиться по предметам, которые, в свою очередь, делятся по классам. Чтобы подо­брать литературу по нужной теме, читатель должен пони­мать принцип организации каталога.

Поисковые каталоги WWW организованы по аналогично­му иерархическому принципу. Только в них систематизиру­ется информация не о книгах, а о документах, хранящихся в World Wide Web. На главной странице поискового катало­га располагается список основных тематических разделов (рубрик).

Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика
и т. д.

 

Каждое имя в этом списке является внутренней гиперссыл­кой поискового каталога. Щелчок мышкой по гиперссылке вызывает на экран список заголовков следующего подразде­ла и т. д. Очевидно, такая система подобна дереву файловой системы ОС. Перемещаясь по дереву внутренних гиперссы­лок каталога, пользователь в конечном итоге получает спи­сок внешних ссылок на искомые Web-документы.

Поисковые каталоги заполняются вручную специалиста­ми, обслуживающими данную службу. При ручном способе отбора невозможно получить в каталоге исчерпывающую информацию о ресурсах

Сети, и в этом состоит основной не­достаток каталогов. Однако такой способ классификации исключает ссылки на случайные документы, не имеющие отношения к указанной теме. Таким образом, поисковые ка­талоги при относительно небольшом охвате ресурсов Сети обеспечивают хорошее качество подборки документов.

 

Примерами поисковых каталогов являются:

 

Зарубежные каталоги: Уаhоо! - http://www.yahoo.com Тhе Virtual Library - http://www.w3.org Маgеllаn - http://www.mckinley.соm WebCrawler - http://www.webcrawler.соm Российские каталоги: @Rus - http://www.atrus.ru Ау! - http://www.au.ru List-Ru - http://www.list.ru Weblist - http://www.weblist.ru/ Улитка - http://emf.ulstu.ru/metod/ITEK/www.ulitka.ru  

1.2 Поисковые указатели

Другое название этого вида поис­ковой службы — поисковые машины. Принцип работы по­исковых указателей заключается в создании и использова­нии индексных списков. Очень часто в учебной и научной литературе в конце книжки присутствуют индексные спис­ки — это перечень основных терминов с указанием страниц книги, на которых они встречаются. Такой список можно назвать поисковым указателем данной книги. Например, в учебнике по информатике вы ищете в таком списке слово «процессор», напротив которого указаны номера страниц. Затем на этих страницах читаете все, что написано про про­цессор.

Поисковая машина - поисковая система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом.

Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

В отборе наиболее важных документов пользователю по­могает рейтинговый принцип, используемый некоторыми поисковыми указателями. На запрос пользователя по клю­чевому слову система выдает список ссылок на документы, расположенных по убыванию рейтинга. Рейтинг определя­ется по числу обращений к документу, которые были сдела­ны ранее. Самые популярные документы попадают в начало списка.

Основной составляющей поисковых машин являются программы просмотра Web-документов, которые называют по-разному: роботами, червяками, пауками и пр. Наверное, наиболее подходящим названием является «пауки», если уж сеть WWW называть паутиной! Непрерывно, днем и но­чью, они сканируют все информационное пространство WWW, просматривая все документы, определяя в них клю­чевые слова и записывая в свою базу индексов данное слово с указателем на документ, в котором оно присутствует. Этот процесс не прерывается, поскольку содержание паутины все время меняется. Даже в уже просмотренные документы ав­торы могут внести изменения или вообще удалить их. По­исковая машина все время должна поддерживать информа­цию в актуальном состоянии.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Задачи поисковых машин состоят в формировании ин­дексных списков, охватывая ими как можно большее число документов паутины, а также в ответах на запросы клиен­тов. Ясно, что таким способом проиндексировать вручную все документы WWW невозможно. По некоторым оценкам их число перевалило за миллиард. Поэтому поисковые ма­шины строят индексные списки автоматически.

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Эффективность работы поисковой машины зависит от ис­пользуемых алгоритмов формирования базы указателей. Эти алгоритмы представляют «now how» (ноу-хау), то есть объекты интеллектуальной собственности авторов, и обычно держатся в секрете. Число указателей к некоторым ключе­вым словам составляет многие тысячи. Чем лучше алго­ритм, тем меньше в индексный список попадает «мусора» — случайных документов, не имеющих отношения к теме по­иска.

Число поисковых указателей превышает число катало­гов.