Реферат: Сетевые средства поиска информации
Каталоги
Объем информации Интернет переживает стремительный рост: по оценкам экспертов, количество Web-страниц увеличилось от нескольких десятков тысяч в 1996 г. до нескольких сотен тысяч к концу 1998 г. В этих условиях ни одно отдельно взятое средство поиска информации не сможет охватить всех ресурсов Сети. Поэтому для эффективного решения задачи поиска пользователю необходимо свободно ориентироваться в сложном и многообразном мире поисковых инструментов. Правильный выбор средства поиска информации в каждом конкретном случае является существенным, если не определяющим, фактором успешного выполнения задачи.
Каталоги представляют собой систематизированные группы адресов, объединенные, как правило, по тематике. К удобству их применения можно отнести то, что, если пользователю известна тема искомого документа, он будет исследовать соответствующую ветвь каталога, не отвлекаясь на посторонние, не относящиеся к делу документы. Однако, объем каталога ограничен физическими возможностями редакторской группы и ее субъективностью в выборе материала. В них отсутствует информация на узкие, специальные темы, да и саму тематику искомого документа не всегда можно сформулировать в пределах классификации каталога.
Название | Описание |
Yahoo! | Самый популярный каталог, содержащий обширную информацию о десятках тысяч Web-узлов. Первый уровень иерархии содержит 14 тематических категорий, которые разветвляются еще на 4 - 5 подуровней. Имеет собственную машину поиска, позволяющую: 1) искать по базе Yahoo!, по Usenet или по адресам электронной почты; 2) ограничить поиск материалами, размещенными за последний день, неделю, месяц, год или 3 года; 3) выдать статьи, содержащие хотя бы одно ключевое слово или все ключевые слова; 4) искать по однокоренным словам или только по указанным ключевым; 5) выдать результаты по 10, 25, 50 или 100 на одной странице. |
Excite Reviews | Содержит обзоры 60 тыс. узлов Интернет, систематизированные в иерархический каталог. |
City.Net | Каталог сведений о разных странах и городах. |
Galaxy | Иерархический каталог с подробным описанием тематических категорий на первой странице. Осуществляет поиск по категории поиска, по одному или нескольким ключевым словам, краткий и подробный вывод результатов поиска, переход на страницы Gopher и Telnet. |
Yellow Pages | Поиск информации о 16 млн. американских компаниях в различных областях деятельности, а также персональные данные и электронные адреса частных лиц. |
Поисковые машины
В разделе курса "Поиск информации в Интернет" мы рассмотрели принцип работы поисковых машин: часть машины, называемая «пауком» (или «спайдером»), постоянно путешествует по узлам сети, собирая и обновляя информацию, кодирует ее (индексация) и записывает в специализированную базу данных. При поступлении от пользователя запроса в виде набора ключевых слов машина исследует свою базу данных и выдает список документов, содержащих ключевые слова, как правило, ранжированный в зависимости от частоты вхождения ключевых слов и других характеристик.
К достоинствам применения поисковых машин можно отнести огромный объем информации, исследуемой ими, и ее периодическую актуализацию. Однако, при этом не учитываются документы, не содержащие ключевых слов, а, с другой стороны, в списке содержится много шумовой, не относящейся к делу информации, отсеивание которой занимает немалое время.
Название | Описание |
Lycos | Охватывает 68 млн. страниц. Можно выбрать параметры поиска: одно, несколько ключевых слов или фраза; усечение терминов; ограничения на число совпадений; степень соответствия результатов поиска ключевым словам; форму вывода результатов ( краткую или подробную ); количество найденных терминов на каждой странице. Невысокие быстродействие и оперативность обновления информации. |
Alta Vista | Охватывает более 30 млн. страниц на 225000 серверах, обеспечивает доступ к 3 млн. статей в 14000 телеконференциях Usenet. Имеет два режима: Simple query и Advanced query. В режиме Simple можно вводить шаблоны для поиска не менее, чем с тремя указанными символами в начале слова. Если слово содержит хотя бы одну заглавную букву, ведется поиск с учетом регистра. Ниже строки ввода выдаются советы по поиску. В режиме Advanced можно создавать сложные запросы, основанные на логических операторах AND, OR, NOT, NEAR и указывать критерии сортировки полученных результатов. Можно указывать диапазон дат опубликования. Предоставляет возможность поиска изображений. Удобный интерфейс. Высокое быстродействие, многовариантное поисковое предписание, возможность поиска на русском языке с учетом морфологии. Система не упорядочивает результаты поиска, поэтому ее целесообразно применять для специфического или исчерпывающего поиска. |
Infoseek Guide | Охватывает 1,5 млн. страниц. Язык запросов позволяет использовать все возможные варианты логических выражений. Менее полные, чем на других серверах, результаты поиска, неудобный интерфейс. |
Infoseek Ultra | 50 млн. страниц WWW, возможен поиск на русском языке, поиск изображений. |
WebCrawler | Охватывает WWW, Usenet, Gopher, FTP, Telnet. Возможен поиск на русском языке. Простота в обращении, быстрота. Менее обширная база узлов, чем на других серверах. |
HotBot | Охватывает 54 млн. страниц. Многовариантное поисковое предписание. Возможен поиск на русском языке. |
Мета-средства поиска
Мета-средства поиска позволяют усовершенствовать процесс путем запуска одновременно нескольких средств поиска. Этот способ значительно повышает качество поиска, объединяя достоинства и возможности всех используемых средств.
Однако, иногда поиск с применением мета-средств может оказаться очень медленным, так как им приходиться координировать во времени поступления результатов обработки запроса от нескольких серверов и проблемы, возникшие у одного из них, могут приостановить работу всей системы. Еще одним недостатком мета-средств является то, что они не позволяют использовать возможности языка запроса каждого из применяемых поисковых средств и не дают возможности заглянуть в их справочные руководства.
Название | Описание | ||||||||||||
MetaCrawler | Подключает 9 поисковых систем одновременно. Проверяется возможность доступа к найденной информации, соответствие содержимого заданному критерию. Можно сортировать информацию по территориальной близости, по близости к определенному узлу, по отношению к компании и т.д. Возможен поиск на русском языке. Есть возможность персональной настройки интерфейса. | ||||||||||||
SavvySearch |
Запускает одну из 4 групп, состоящих из трех поисковых систем:
Поисковое предписание с использованием операторов AND и OR. Возможен поиск на многих языках, в том числе на русском. |
||||||||||||
All-in-One |
Хорошо структурированная мета-машина, имеющая древовидную классификационную структуру, на верхнем уровне которой размещены группы: , весь Internet, личные интересы, ПО, странички частных лиц, новости и погода, литература и прочее. Уточняя содержание каждой группы, можно попасть на следующий уровень. Использует около 200 поисковых средств. |
||||||||||||
Internet Sleuth |
Охватывает 1500 баз данных. Можно запустить одновременно до 10 поисковых систем из 24, имеющихся в меню. Использует операторы AND, OR, NOT, усечение терминов. Для каждой поисковой машины можно задать свой критерий и свое ограничение времени поиска. Возможен поиск на русском языке. Тематический поиск ведется по большому количеству периодических изданий и информационных служб многих стран. Для группы "НОВОСТИ" используется 39 источников. |
Русскоязычные средства поиска
Каталоги
Название | Описание |
ПАУК | Широкий охват русскоязычного WWW. Глубина поиска: название, первые строки, электронный адрес документов. Поддерживает все русские кодировки, возможность усечения терминов. Большой объем, разветвленная иерархическая структура. Слабая оперативность обновления информации. |
Созвездие Интернет | Охватывает около 400 серверов. Возможность усечения терминов. Содержит названия и краткие характеристики серверов. Привлекательная графика. Небольшая зона поиска, слабая иерархия. |
Желтые страницы Интернет | Около 1200 Web-серверов. Большой объем информации, хорошо продуманная структура. |
Russia on the Net | Первый каталог русских ресурсов. |
АУ! | Молодой, быстроразвивающийся каталог. |
Сокровища Интернет | Каталог Web-ресурсов на сервере Relcom. |
Поисковые машины
Название | 1. Зона поиска |
2. Глубина поиска | |
3. Язык запроса | |
4. Вывод результата | |
5. Достоинства и недостатки | |
Rambler | 1. Около 4000 Web-узлов, недельный архив телеконференций Relcom. |
2. Все слова в документе. | |
3. Операторы AND, OR, NOT. Возможность усечения терминов. Ограничения по дате. Простой запрос - 30 ссылок, углубленный - 1000. | |
4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия, кодировка. | |
5. Удобный интерфейс, высокое быстродействие, полная информация на выходе. Слабая оперативность обновления информации. | |
Апорт! | 1. 16 серверов. |
2. Все слова в документе. | |
3. AND и OR. Поиск по фразе (в двойных кавычках). Возможность усечения терминов. Чувствительность к строчным и прописным буквам. | |
4. Название документа, резюме, размер файла, адрес, дата последнего обновления, степень соответствия запросу, кодировка. | |
5. Удобство для пользователя, высокое быстродействие. | |
Русская Машина Поиска | 1. Более 900 русскоязычных узлов. |
2. Все слова в документе. | |
3. AND и OR. Поиск по отдельной фразе. Ограничения поиска определенными элементами Web-страниц (название, ключевые слова, автор и т.д.). пользователь может установить или отменить чувствительность к строчным и прописным буквам и указать количество возможных ошибок в искомом слове, если нет уверенности в его написании. | |
4. Название документа, резюме, адрес, степень соответствия запросу. | |
5. Многовариантность поискового предписания. Непривычная форма выдачи результата. | |
Яndex-Web | 1. 5000 серверов - вся русская часть Интернет, включая домены "RU", "SU", а также русскоязычные ресурсы в других доменах. |
2. Все слова в документе. | |
3. AND, OR, NOT. Позволяет осуществлять поиск внутри абзаца, документа, в заголовках и других полях, а также с указанием расстояния между словами. Поиск по фразе. Учет морфологии русского языка. Чувствительность к строчным и прописным буквам. Возможность простого и сложного запроса. Поиск в найденном. | |
4. Заголовок, начало текста документа, размер файла, дата и адрес, степень соответствия запросу, кодировка. Возможность "подсвечивания" слов в тексте, соответствующих поисковому предписанию. | |
5. Индексация обеспечивает нормализацию слов и уникальность документа. Широкий охват, удобный интерфейс, высокое быстродействие, высокая оперативность обновления информации (раз в неделю). |
Данное описание не претендует на исчерпывающий охват средств поиска. Более подробную информацию можно получить, изучая иные варианты списков поисковых средств, доступные в Интернет.
Список литературы