Антивирусные программы США

Краткие характеристики ЛИ ПС Internet

Москва 2005

Проверил преподаватель

Мировые информационные ресурсы и сети

По курсу

Отчет о лабораторной работе

Им. Г. В. ПЛЕХАНОВА

ИНСТИТУТ ИНФОРМАТИКИ

«Информационно-поисковые системы Internet»

Выполнил ст.___________

AltaVista (http://www.altavista.com/)

По количеству индексированных Web-страниц Alta Vista — одна из крупнейших (но не самая крупная, как это иногда счи­тается) поисковых систем мира. Огромный объем охвата Web-пространства и мощный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуатацию в декаб­ре 1995 г. и долгое время считалась молодой, но бурно разви­вающейся. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поисковую службу — Ask Jeeves. Несмотря на то, что сегодня Alta Vista уже не является самым удобным сред­ством поиска и владеет не самым большим индексом, ее попу­лярность по-прежнему выше, чем у служб, которые превзошли ее по многим показателям, что связано с устоявшимися привыч­ками миллионов пользователей.

Rambler (http://www.rambler.ru)

По статистике 2/3 посетителей Rambler пользуются лишь его поисковыми возможностями. По качеству поиска Rambler пока несколько уступает порталу «Япёех», который постоянно совер­шенствует свою систему.

Вариант № Тематика поиска ИПС 1 ИПС 2
Антивирусные программы, США, 2001 г. Rambler AltaVista

 

В ИПС 1 запрос будет выглядеть следующим образом:

Дата документа начиная с 01.01.2001 по 31.12.2001 Исключить документы, содержащие хотя бы одно из следующих слов: 2002

В ИПС 2 соответственно:

all of these words: США

this exact phrase: антивирусные программы by date range: 1 January 2001 - 31 December 2001 and none of these words: 2002.


Результаты поиска: А = 99, В = 55, А п В = 12.

Проиндексировано страниц в Rambler — более 2 млн, Altavista — более 50 млн страниц (D= 50 ООО ООО).

Оценим значения мер близости:

мера Танимото:

Л' = = -Т-^Б—F = 12/(" + 55 " 12) * °'0845;

\А vj В\ А + В - С

корреляционный коэффициент:

д \С\\Р\-\А\\В\

2 M\b\\D-A\\D-B\ = (12 ■ 50 ООО ООО - 99 ■ 55)/(99 -55 -49 999 901 х х 49 999 945)|/2 « 0,163.

Выводы

Проблема поиска информации, опубликованной в Internet (представленной в виде документов на естественном языке), все больше выходит за рамки узкокоммерческих проблем и стано­вится общечеловеческой проблемой. Развитие высокотехноло­гичного общества во многом сдерживается принципиальными недостатками существующих распространенных методов доступа к информации, один из важнейших компонентов которой — по­иск — совершенно неадекватен характеру и гигантскому объему доступной информации.

Огромные размеры и гетерогенная структура сети Internet приводят к тому, что традиционные технологии нахождения до­кументов перестают быть эффективными. Несмотря на это, ос­новным способом поиска информации в сети до сих пор остает­ся «булевский» полнотекстовый поиск с использованием выде­ленных словных индексов, поскольку исторически только он мог обеспечить приемлемую производительность систем массо­вого уровня, не требующих специальной подготовки от пользо­вателя.

Рассмотренные две системы поиска Rambler и Altavista меж­ду собой слабо связаны, о чем свидетельствует коэффициент корреляции, который меньше 0,2. Мера Танимото показывает близость терминов, которая не учитывает корреляционные связи между признаками.

Оглавление

Введение ................................................................................... 3

Глава 1. КОМПЬЮТЕРНЫЕ СЕТИ

И ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ: ОСНОВНЫЕ ПОНЯТИЯ, ЭЛЕМЕНТЫ И СТРУКТУРЫ ........................................................................................... 8

1.1. Системы «терминал — хост».............................................. 9

1.2. Системы «клиент — сервер» ......................................................... 10