Реферат: Сетевые средства поиска информации

Каталоги

Объем информации Интернет переживает стремительный рост: по оценкам экспертов, количество Web-страниц увеличилось от нескольких десятков тысяч в 1996 г. до нескольких сотен тысяч к концу 1998 г. В этих условиях ни одно отдельно взятое средство поиска информации не сможет охватить всех ресурсов Сети. Поэтому для эффективного решения задачи поиска пользователю необходимо свободно ориентироваться в сложном и многообразном мире поисковых инструментов. Правильный выбор средства поиска информации в каждом конкретном случае является существенным, если не определяющим, фактором успешного выполнения задачи.

Каталоги представляют собой систематизированные группы адресов, объединенные, как правило, по тематике. К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы. Однако, объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать в пределах классификации каталога.

Название Описание
Yahoo! Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице.
Excite Reviews Содержит обзоры 60 тыс. узлов Интернет, систематизированные в иерархический каталог.
City.Net Каталог сведений о разных странах и городах.
Galaxy Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet.
Yellow Pages Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц.

Поисковые машины

В разделе курса "Поиск информации в Интернет" мы рассмотрели принцип работы поисковых машин: часть машины, называемая «пауком» (или «спайдером»), постоянно путешествует по узлам сети, собирая и обновляя информацию, кодирует ее (индексация) и записывает в специализированную базу данных. При поступлении от пользователя запроса в виде набора ключевых слов машина исследует свою базу данных и выдает список документов, содержащих ключевые слова, как правило, ранжированный в зависимости от частоты вхождения ключевых слов и других характеристик.

К достоинствам применения поисковых машин можно отнести огромный объем информации, исследуемой ими, и ее периодическую актуализацию. Однако, при этом не учитываются документы, не содержащие ключевых слов, а, с другой стороны, в списке содержится много шумовой, не относящейся к делу информации, отсеивание которой занимает немалое время.

Название Описание
Lycos Охватывает 68 млн. страниц. Можно выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам; форму вывода результатов ( краткую или подробную ); количество найденных терминов на каждой странице. Невысокие быстродействие и оперативность обновления информации.
Alta Vista Охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях Usenet. Имеет два режима: Simple query и Advanced query. В режиме Simple можно вводить шаблоны для поиска не менее, чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы, основанные на логических операторах AND, OR, NOT, NEAR и указывать критерии сортировки полученных результатов. Можно указывать диапазон дат опубликования. Предоставляет возможность поиска изображений. Удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание, возможность поиска на русском языке с учетом морфологии. Система не упорядочивает результаты поиска, поэтому ее целесообразно применять для специфического или исчерпывающего поиска.
Infoseek Guide Охватывает 1,5 млн. страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс.
Infoseek Ultra 50 млн. страниц WWW, возможен поиск на русском языке, поиск изображений.
WebCrawler Охватывает WWW, Usenet, Gopher, FTP, Telnet. Возможен поиск на русском языке. Простота в обращении, быстрота. Менее обширная база узлов, чем на других серверах.
HotBot Охватывает 54 млн. страниц. Многовариантное поисковое предписание. Возможен поиск на русском языке.

Мета-средства поиска

Мета-средства поиска позволяют усовершенствовать процесс путем запуска одновременно нескольких средств поиска. Этот способ значительно повышает качество поиска, объединяя достоинства и возможности всех используемых средств.

Однако, иногда поиск с применением мета-средств может оказаться очень медленным, так как им приходиться координировать во времени поступления результатов обработки запроса от нескольких серверов и проблемы, возникшие у одного из них, могут приостановить работу всей системы. Еще одним недостатком мета-средств является то, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств и не дают возможности заглянуть в их справочные руководства.

Название Описание
MetaCrawler Подключает 9 поисковых систем одновременно. Проверяется возможность доступа к найденной информации, соответствие содержимого заданному критерию. Можно сортировать информацию по территориальной близости, по близости к определенному узлу, по отношению к компании и т.д. Возможен поиск на русском языке. Есть возможность персональной настройки интерфейса.
SavvySearch

Запускает одну из 4 групп, состоящих из трех поисковых систем:

WebCrawler, Yahoo!, Lycos
Galaxy, Excite, DejaNews
FTPSearch95, Yellow Pages, Infoseek
Magellan, NlightN, PointSearch

Поисковое предписание с использованием операторов AND и OR. Возможен поиск на многих языках, в том числе на русском.

All-in-One

Хорошо структурированная мета-машина, имеющая древовидную классификационную структуру, на верхнем уровне которой размещены группы: , весь Internet, личные интересы, ПО, странички частных лиц, новости и погода, литература и прочее. Уточняя содержание каждой группы, можно попасть на следующий уровень.

Использует около 200 поисковых средств.

Internet Sleuth

Охватывает 1500 баз данных. Можно запустить одновременно до 10 поисковых систем из 24, имеющихся в меню. Использует операторы AND, OR, NOT, усечение терминов. Для каждой поисковой машины можно задать свой критерий и свое ограничение времени поиска.

Возможен поиск на русском языке. Тематический поиск ведется по большому количеству периодических изданий и информационных служб многих стран. Для группы "НОВОСТИ" используется 39 источников.

Русскоязычные средства поиска

Каталоги

Название Описание
ПАУК Широкий охват русскоязычного WWW. Глубина поиска: название, первые строки, электронный адрес документов. Поддерживает все русские кодировки, возможность усечения терминов. Большой объем, разветвленная иерархическая структура. Слабая оперативность обновления информации.
Созвездие Интернет Охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия.
Желтые страницы Интернет Около 1200 Web-серверов. Большой объем информации, хорошо продуманная структура.
Russia on the Net Первый каталог русских ресурсов.
АУ! Молодой, быстроразвивающийся каталог.
Сокровища Интернет Каталог Web-ресурсов на сервере Relcom.

Поисковые машины

Название 1. Зона поиска
2. Глубина поиска
3. Язык запроса
4. Вывод результата
5. Достоинства и недостатки
Rambler 1. Около 4000 Web-узлов, недельный архив телеконференций Relcom.
2. Все слова в документе.
3. Операторы AND, OR, NOT. Возможность усечения терминов. Ограничения по дате. Простой запрос - 30 ссылок, углубленный - 1000.
4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия, кодировка.
5. Удобный интерфейс, высокое быстродействие, полная информация на выходе. Слабая оперативность обновления информации.
Апорт! 1. 16 серверов.
2. Все слова в документе.
3. AND и OR. Поиск по фразе (в двойных кавычках). Возможность усечения терминов. Чувствительность к строчным и прописным буквам.
4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия запросу, кодировка.
5. Удобство для пользователя, высокое быстродействие.
Русская Машина Поиска 1. Более 900 русскоязычных узлов.
2. Все слова в документе.
3. AND и OR. Поиск по отдельной фразе. Ограничения поиска определенными элементами Web-страниц (название, ключевые слова, автор и т.д.). пользователь может установить или отменить чувствительность к строчным и прописным буквам и указать количество возможных ошибок в искомом слове, если нет уверенности в его написании.
4. Название документа, резюме, адрес, степень соответствия запросу.
5. Многовариантность поискового предписания. Непривычная форма выдачи результата.
Яndex-Web 1. 5000 серверов - вся русская часть Интернет, включая домены "RU", "SU", а также русскоязычные ресурсы в других доменах.
2. Все слова в документе.
3. AND, OR, NOT. Позволяет осуществлять поиск внутри абзаца, документа, в заголовках и других полях, а также с указанием расстояния между словами. Поиск по фразе. Учет морфологии русского языка. Чувствительность к строчным и прописным буквам. Возможность простого и сложного запроса. Поиск в найденном.
4. Заголовок, начало текста документа, размер файла, дата и адрес, степень соответствия запросу, кодировка. Возможность "подсвечивания" слов в тексте, соответствующих поисковому предписанию.
5. Индексация обеспечивает нормализацию слов и уникальность документа. Широкий охват, удобный интерфейс, высокое быстродействие, высокая оперативность обновления информации (раз в неделю).

Данное описание не претендует на исчерпывающий охват средств поиска. Более подробную информацию можно получить, изучая иные варианты списков поисковых средств, доступные в Интернет.

Список литературы