Система файловых архивов FTP

Информационно-поисковые системы в среде WWW

Информационные технологии WWW

Ч

Мировые информационные сети, их классификация и характеристика

 

Отличительной чертой ЛВС является большая скорость передачи данных, низкий уровень ошибок и использование дешевой среды передачи данных. Большинство ЛВС принадлежат какой-либо конкретной организации, которая их поддерживает.

Типы сетей

Сети часто разделяют на три основных типа в зависимости от размера географической области, которую они охватывают. Небольшая область обычно связывается с термином "локальная вычислительная сеть" (Local Area Network - LAN). Большие области связываются с терминами "региональная вычислительная сеть" (Metropolitan Area Network - MAN) и "глобальная вычислительная реть" (Wide Area Network - WAN).

Локальная вычислительная сеть (ЛВС). Если сеть привязана к одному месту (обычно одному зданию или комплексу различных зданий), то она называется локальной. ЛВС связывает компьютерные системы и периферийные устройства (накопители на жестких дисках, стримеры, принтеры и т. п.) в группы, которые сообща используют данные и периферийные устройства.

Ниже приведены наиболее распространенные сетевые топологии.

Иерархическая. Каждое из устройств обеспечивает непосредственное управление устройствами низшими по иерархии. Данная конструкция отличается простотой в общем управлении сетью, хорошими возможностями для расширения сети.

Горизонтальная. Характерна простота управления. Однако труден поиск неисправностей и необходимо резервирование главной шины.

 

Кольцевая. Обычно данные расхпюстраняются только в одном направлении, передаваясь от станции к станции. Однако при отказе канала между двумя узлами происходит отказ всей сети, поэтому, как правило, в сеть встраиваются переключатели, изменяющие маршрут к узлу.

Ячеистая Устойчива к перегрузкам и отказам, высока надежность, однако сложна логика обмена данными.

Региональная вычислительная сеть. Если сеть охватывает целый город, то она является региональной вычислительной сетью (РВС). РВС - это самый новый тип сетей. РВС имеют много общего с ЛВС, но они по многим параметрам сложнее последних.

Например, помимо обмена данными и голосового обмена, РВС могут передавать видео- и аудиоинформацию.

РВС разработаны для поддержки больших расстояний, чем ЛВС. Они могут использоваться для связывания нескольких ЛВС вместе в высокоскоростные интегрированные сетевые системы. РВС сочетают лучшие характеристики ЛВС (низкий уровень ошибок, высокая скорость передачи) с большей географической протяженностью.

Глобальная вычислительная сеть. Если сеть распространяется на широкие области, такие, как страны, она называется глобальной вычислительной сетью (ГВС). Коммуникации по ГВС осуществляются посредством телефонных линий, спутниковой связи

или наземных микроволновых систем. ГВС зачастую создаются путем объединения ЛВС и РВС. Фактически объединение изолированных ЛВС и РВС в форму ГВС является современной тенденцией в области сетей. Поскольку ГВС. как правило, включают объединение многих ЛВС и РВС, то они часто представляют собой конгломерат различных технологий.

 

WWW, W3 - система для доступа к гипертекстовой и гипермедиа-информации (как, впрочем, и к любой другой, но соль именно в «ги-пер»). Изначально проект WWW зародился в CERN, европейском цент­ре физики высоких энергий в 1990 г., но со временем перерос рамки сообщества ученых-физиков. Первые программы, демонстрирующие работу системы, были закончены в 1992 г. для компьютера NeXT. За несколько лет, прошедших с тех пор, система WWW совершила побе­доносное шествие практически по всем операционным платформам, включая самые примитивные (MS-DOS). «Отец» WWW, Тим Бернерс-Ли, сейчас является руководителем консорциума W30, W3 Organization, основанного CERN и MIT (Масачусетский технологический институт) в 1994 г. для развития и стандартизации WWW. В феврале 1995 г. CERN вышел из консорциума, мотивируя это необходимостью сосредоточить все усилия на чисто физических проектах. Преемником CERN стал фран­цузский национальный компьютерный центр INRIA.

«Рабочее пространство» WWW - Internet. Это не означает, что WWW и Internet не могут обойтись друг без друга. Нет, вполне возможно ис­пользовать WWW в качестве локальной информационной системы. Бо­лее того, форматы данных и протоколы не имеют никакой привязки к технологической основе сети (IP). Однако всякая информационная си­стема, помимо технических характеристик, сильна (или слаба) своим содержанием и пользовательским интерфейсом. Так уж получилось, что именно сеть Internet, являясь транспортом, в силу своего размера, от­крытости и структуры, сделала WWW глобальной реальностью, а милли­оны пользователей совместно наполнили Web мириадами документов.

Причины успеха просты - дружественный интерфейс, легкость на-


вигации в Internet, способность легко интегрировать мультимедиа-объек­ты и решение типа «все в одном» - типичный навигатор (browser) явля­ется клиентом для почти всех популярных информационных служб в Internet. Web фантастически популярен и растет даже быстрее Internet.

WWW работает по принципу клиент-сервер, точнее, клиент-серве­ры: существует множество серверов, которые по запросу клиента воз­вращают ему гипермедийный документ - документ, состоящий из час­тей с разнообразным представлением информации (текст, звук, гра­фика, трехмерные объекты и т.д.), в котором каждый элемент может являться ссылкой на другой документ или его часть. Ссылки эти в доку­ментах WWW организованы таким образом, что каждый информацион­ный ресурс в глобальной сети Интернет однозначно адресуется, и до­кумент, который Вы читаете в данный момент, способен ссылаться как на другие документы на этом же сервере, так и на документы (и вооб­ще на ресурсы Интернет) на других компьютерах Интернет. Причем пользователь не замечает этого, и работает со всем информационным пространством Интернет как с единым целым. Ссылки WWW указыва­ют не только на документы, специфичные для самой WWW, но и на прочие сервисы и информационные ресурсы Интернет. Более того, большинство программ-клиентов WWW (browsers, навигаторы) не про­сто понимают такие ссылки, но и являются программами-клиентами соответствующих сервисов: ftp, gopher, сетевых новостей Usenet, элек­тронной почты и т.д. Таким образом, программные средства WWW яв­ляются универсальными для различных сервисов Интернет, а сама ин­формационная система WWW играет интегрирующую роль.

Надо отметить, что идея распределенного гипертекста зародилась довольно давно. Например, можно отметить проект одного из австрий­ских университетов Hyper-G. С точки зрения автора своим успехом WWW в очень большой степени обязана NCSA, разработавшему популярней­ший в прошлом WWW-навигатор с графическими способностями. В начале 1993 г. NCSA, National Center for Supercomputing Applications, На­циональный центр суперкомпьютерных приложений при университете штата Иллинойс в Урбана-Шампань выпустил в свет первую версию Mosaic - WWW-навигатора, которому было суждено завоевать мир. В свое время Mosaic прозвали «Internet killer application» (т.е. хит, бестсел­лер Интернет), и она была доступна практически для всех клонов Unix и для MS-Windows. Мозаика была основным инструментом для пользова­телей WWW. С тех пор многое изменилось.

Следующий этап - образование компании Netscape Communications Corp. (NS) и выпуск этой компанией нового навигатора. Между бесплат­ным навигатором Mosaic и Netscape Navigator (далее просто Netscape) существует некая генеалогическая связь. Дело в том, что их написали одни и те же люди, в большинстве своем ныне работающие в Netscape Communications Corporation. Сейчас такое высказывание, может быть, не совсем точно, так как в команду Mosaic влились новые программис-


ты вместо ушедших. С начала 1996 года и Relcom и Demos начали рас­пространение Netscape в России. Первые версии Netscape распрост­ранялись бесплатно и ими до сих пор многие пользуются.

Система WWW в целом состоит из следующих компонент:

HTML (HyperText Markup Language)- язык гипертекстовой разметки;

HTTP (HyperText Transfer Protocol)- прикладной протокол, разработанный для обмена гипертекстовой информацией в Internet;

• Спецификаций на типы данных в Internet (Internet Media Types);

• Система WWW-адресации (URL).

Язык HTML очень прост. Разработчики WWW и позже консорциум W30 стремятся оформить HTML как DTD (Document Type Definition) в терминах SGML (Standard Generalized Markup Language), ISO-стандарта (ISO - International Standards Organization - международная организация стандартов) для обработки документов. С практической точки зрения HTML представляет собой разметку, сделанную обычными английски­ми словами внутри документа. HTML был разработан для того, чтобы выделить в документах логическую структуру.

Протокол HTTP (HyperText Transfer Protocol) также в высшей степе­ни прост, что иногда вредит организации информационного сервиса. Это правила общения между навигатором и WWW-сервером. Одна сес­сия легко укладывается в схему запрос-ответ. В простейшем случае навигатор требует некий документ, и сервер его выдает. С одной сто­роны, такая простота - вещь хорошая, с другой - это влечет за собой дополнительные накладные расходы и, следовательно, временные за­держки и неэффективность.

Схема HTTP содержит идентификатор, адрес машины, ТСР-порт, путь в директории сервера, поисковый критерий и метку: http:// polyn.net.kiae.su/polyn/manifest.html.

Согласование типов документов, передаваемых в рамках WWW, производится с помощью заголовков, которыми обмениваются навига­тор и WWW-сервер. Весь комплекс заголовков известен как MIME, Multipurpose Internet Mail Extensions. Это означает «многоцелевые рас­ширения почты в Интернет», и следы MIME можно видеть во многих электронных письмах.

Заголовки:

Content-Transfer-Encoding: iso8859-5 Content-Length: 8674

и,уж безусловно, MIME-Version: 1.0

- есть несомненный признак MIME.

Сами типы документов специфицированы в RFC (Request For Comment - запрос для комментария. Портфель документов, в которых опубликованы стандарты Internet, предлагаемые ей ^андарты, а также


общепринятые идеи, негласные стандарты и т.п. Эти документы факти­чески определяют Internet), описывающем так называемые «типы дан­ных в Internet» (Internet Media Types).

Навигатор должен знать, какого типа документ он получает, ведь он должен его интерпретировать, показывать и вообще что-то с ним делать.

Навигаторы предоставляют пользователю возможность указывать внешние программы-интерпретаторы для разных типов документов.

Для внесения в WWW возможности интерактивного диалога с пользователем и создания динамических документов имеется ряд спо­собов, частично стандартизованных, частично нет. Это такие средства, как:

CGI (CommonGatewaylnterface) - часть HTML, создание интерактив­ных форм, создание документов, как вывод программ. Интерфейс CGI был специально разработан для расширения возможностей WWW за счет подключения всевозможного внешнего программного обеспече­ния. Такой подход логично продолжал принцип публичности и просто­ты разработки и наращивания возможностей WWW. По настоящему по­лезные формы профессионального уровня все же создавать в рамках CGI невозможно. Этому мешают бедность средств CGI и свойства (statelessness) протокола HTTP.

SSI, SSI+ - нестандартизованные расширения серверов, например, доступ к БД через ODBC без программирования.

Страница базы данных WWW- законченный информационный объект, который отображается пользователю при обращении к инфор­мационному ресурсу WWW по универсальному идентификатору этого ресурса (URL).

Таким образом, мы видим, что WWW представляет собой систе­му:

• открытую (все спецификации, протоколы и т.д. опубликованы и доступны бесплатно);

• масштабируемую (система адресации);

• легко интегрируемую и расширяемую (MIME, внешние интерпре­таторы).

К информационным технологиям WWW относятся: HTML, URL, HTTP, CGI, Java, JavaScript.

Java - это современный язык для разработки приложений, создан­ный специально для распределенных сред. Java является простым объектно-ориентированным языком, не требующим длительного обуче­ния программистов. Для работы в сетецентрической среде возрастаю­щей сложности система программирования должна соответствовать объектно-ориентированной концепции.

Java является знакомым языком программирования, так как син­таксис Java во многом напоминает C++. Исключение адресной ариф­метики по мнению создателей должно обеспечить более надежный код


по сравнению с C++. Надежность программ обеспечивается проверка­ми на этапе компиляции и последующей проверкой во время выполне­ния.

Язык JavaScript разрабатывался компанией Netscape как язык сце­нариев просмотра HTML-страниц. JavaScript является объектно-ориен­тированным языком. В целом язык ориентирован на встроенные объекты Netscape Navigator: окна, формы, поля форм, элементы рабочих облас­тей Navigator. Это сильно облегчает обучение языку и позволяет сразу писать интересные и полезные программы.

Используя JavaScript, можно организовать многооконный интер­фейс с локальной справочной системой и встроенной графикой, воз­ложив при этом многие вопросы проверки вводимых пользователем данных на JavaScript. По своим функциональным возможностям JavaScript довольно сильно уступает Java: можно организовать прокрут­ку текста, организовать открытие нового окна, запрограммировать каль­кулятор, но не более того.

Таким образом, нами были рассмотрены два класса доступа к ин­формационным ресурсам Internet: распределенные файловые систе­мы (Usenet, FTP, Gopher, NFS), распределенные информационные сис­темы (WWW, WAIS).

Основные протоколы, используемые в Интернет, не обеспечены достаточными встроенными функциями поиска, не говоря уже о мил­лионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривает­ся только как средство просмотра страниц, но не их поиска. То же са­мое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигаци­онные методы просмотра быстро достигают предела их функциональ­ных возможностей, не говоря уже о пределе их эффективности. Не ука­зывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользова­телей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и зане­сения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того что­бы структурировать информацию, накопленную в сети Интернет, и обес­печить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.


Информационно-поисковая система- система, предназначен­ная для поиска информации в базе данных.

Поисковые системы обычно состоят из трех компонент:

• агент (паук или кроулер), который перемещается по Сети и со­бирает информацию;

• база данных, которая содержит всю информацию, собираемую пауками;

• поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые поиско­выми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные програм­мы, которые занимаются поиском страниц в Сети, извлекают гипертек­стовые ссылки на этих страницах и автоматически индексируют инфор­мацию, которую они находят для построения базы данных. Каждый по­исковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каж­дой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнориру­ют ссылки, которые вед^т к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз дан­ных WAIS; другие проинструктированы, что нужно просматривать преж­де всего наиболее популярные страницы.

Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже тран­закции от имени пользователя. Уже сейчас они могут искать сайты спе­цифической тематики и возвращать списки сайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание докумен­тов, находить и индексировать другие виды ресурсов, не только стра­ницы. Они могут также быть запрограммированы для извлечения ин­формации из уже существующих баз данных. Независимо от информа­ции, которую агенты индексируют, они передают ее обратно базе дан­ных поискового механизма.

Общий поиск информации в Сети осуществляют программы, изве­стные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Они просматри­вают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индек­сацию и даже проверять ссылки в документе. Из-за их природы они


могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначен­ные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встре­чающемся документе, в то время как другие индексируют только наи­более важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и т.д. Вид постро­енного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить инфор­мацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндек­сированная информация отсылается базе данных поискового механиз­ма так же, как было описано выше.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детали­зирующую информацию, которая ему необходима. Здесь могут исполь­зоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на инфор­мации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгорит­мы ранжирования, однако основные принципы определения релевант­ности следующие:

1. Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

2. Тэги, в которых эти слова располагаются.

3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется реле­вантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А пред­ставленные ниже используются некоторыми, но достаточно известны­ми (например, AltaVista, HotBot).

5. Время - как долго страница находится в базе поискового сер­
вера. Поначалу кажется, что это довольно бессмысленный прин­
цип. Но, если задуматься, как много существует в Интернете сай­
тов, которые живут максимум месяц! Если же сайт существует


довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, кото­рый появился неделю назад с этой же темой. 6. Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковой системы. База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки с первыми несколькими предложениями, со­держащимися в документе или заголовок документа вместе с ссылкой. Основные информационно-поисковые системы WWW: Lycos, AltaVista, Yahoo, OpenText, Infoseek. Рассмотрим вкратце характеристи­ки этих систем.

Lycos (www.lycos.com). В Lycos используется следующий механизм индексации:

• слова в <title> заголовке имеют высший приоритет;

• слова в начале страницы;

• слова в ссылках;

• если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.

Как и большинство систем, Lycos дает возможность применять про­стой запрос и более детальный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве докумен­тов на каждое слово, а позже и список ссылок на формально релевант­ные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в доку­мент, и оценочная мера близости, которая может быть больше или мень­ше формально вычисленной. Пока нельзя вводить логические операто­ры в строке вместе с терминами, но использовать логику через систе­му меню Lycos позволяет. Такая возможность применяется для постро­ения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа «Like this», но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista (www.altavista.com). Индексирование в этой системе осу­ществляется при помощи робота. При этом робот имеет следующие приоритеты:


 

• слова содержащиеся в теге <title> имеют высший приоритет; клю­чевые фразы в <Meta> тэгах;

• ключевые фразы, находящиеся в начале странички;

• ключевые фразы в ссылках;

• ключевые фразы по количеству вхождений, присутствия слов, фраз.

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT Кроме это­го, имеется еще и оператор NEAR, который реализует возможность кон­текстного поиска, когда термины должны располагаться рядом в тек­сте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встре­титься слово: гипертекстовая ссылка, applet, название образа, заголо­вок и ряд других полей. К сожалению, подробно процедура ранжирова­ния в документации по системе не описана, но видно, что ранжирова­ние применяется как при простом поиске, так и при расширенном зап­росе. Реально эту систему можно отнести к системе с расширенным логическим поиском.

Yahoo (www.yahoo.com). Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителя­ми средств информационного поиска, а на различных ее серверах ис­пользуется различное программное обеспечение. Язык Yahoo доста­точно прост: все слова следует вводить через пробел, они соединяют­ся связкой AND либо OR. При выдаче не указывается степень соответ­ствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормали­зация лексики и не проводится анализ на «общие» слова. Хорошие ре­зультаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование про­изводится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностя­ми поиска.

OpenText (www.opentext.com). Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на ин­формативное руководство по работе. Система позволяет провести по­иск с использованием логических коннекторов, однако размер запро­са ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается сте­пень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного


булевого поиска, OpenText можно было бы отнести к разряду традици­онных информационно-поисковых систем, если бы не механизм ран­жирования.

Infoseek (www.infoseek.com). В этой системе индекс создает ро­бот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

• слова в заголовке <title> имеют наивысший приоритет;

• слова в теге keywords, description и частота вхождений\повторе-ний в самом тексте;

• при повторении одинаковых слов рядом выбрасывает из индек­са;

• допускает до 1024 символов для тега keywords, 200 символов для тэга description;

• если тэги не использовались, индексирует первые 200 слов на странице и использует как описание.

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» - термин обязан быть в документе, и «-» - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекст­ным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встре­чаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, пред­ставляющих собой единое целое, вплоть до порядка слов. Ранжирова­ние при выдаче осуществляется по числу терминов запроса в доку­менте, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с эле­ментом взвешивания терминов при поиске.

Информационное агентство- организация, собирающая, обра­батывающая и распространяющая информацию. Известна поисковая система Magellan (www.magellan.com) одноименного информацион­ного агентства, примечательная тем, что она не использует робота-ин-дексировщика. Все вопросы о включении того или иного информаци­онного ресурса в базу данных поисковой системы решаются специаль­ной редакционной коллегией, что, с одной стороны, гарантирует «чис­тоту» предоставляемой информации, но, с другой стороны, сильно ог­раничивает широту охвата поисковой системой представленной в Сети информации.

Среди наиболее известных отечественных поисковых систем стоит отметить Яндекс (www.yandex.ru), Апорт (www.aport.ru) и Рамблер (www.rambler.ru).

FTP (File Transfer Protocol)- протокол передачи файлов, еще один широко распространенный сервис Интернет. При рассмотрении ftp как сервиса Интернет имеется в виду не просто протокол, но имен­но сервис - доступ к файлам в файловых архивах.

Схема FTP позволяет адресовать файловые архивы FTP из про­грамм-клиентов: ftp://polyn.net.kiae.su/pub/Oindex.txt.

Вообще говоря, ftp - стандартная программа, работающая по про­токолу TCP, всегда поставляющаяся с операционной системой. Ее ис­ходное предназначение - передача файлов между разными компьюте­рами, работающими в сетях TCP/IP: на одном из компьютеров работает программа-сервер, на втором пользователь запускает программу-кли­ента, которая соединяется с сервером и передает или получает по про­токолу ftp файлы. Здесь предполагается, что пользователь зарегистри­рован на обоих компьютерах и соединяется с сервером под своим


именем и со своим паролем на этом компьютере. Протокол ftp, разу­меется, оптимизирован для передачи файлов. Данная черта и послужи­ла причиной того, что программы ftp стали частью отдельного сервиса Интернет. Дело в том, что сервер ftp может настраивается таким обра­зом, что соединиться с ним можно не только под своим именем, но и под условным именем anonymous - аноним. Тогда Вам становятся до­ступна не вся файловая система компьютера, а некоторый набор фай­лов на сервере, которые составляют содержимое сервера anonymous ftp - публичного файлового архива. Итак, если кто-то хочет предоста­вить в публичное пользование файлы с информацией, программами и прочим, то ему достаточно организовать на своем компьютере, вклю­ченном в Интернет, сервер anonymous ftp. Сделать это достаточно про­сто, программы-клиенты ftp есть практически на любом компьютере -поэтому сегодня публичные файловые архивы организованы в основ­ном как серверы anonymous ftp. На таких серверах сегодня доступно огромное количество информации и программного обеспечения. Прак­тически все, что может быть предоставлено публике в виде файлов, доступно с серверов anonymous ftp. Это и программы - свободно рас­пространяемые и демонстрационные версии, это и мультимедиа, это, наконец, просто тексты - законы, книги, статьи, отчеты. Таким обра­зом, если Вы хотите представить миру демо-версию Вашего программ­ного продукта - anonymous ftp является удачным решением такой зада­чи. Если, с другой стороны, Вы хотите найти последнюю версию Вашей любимой свободно распространяющейся программы, то искать ее нуж­но именно на серверах ftp. Несмотря на распространенность, у ftp есть и множество недостатков. Программы-клиенты ftp могут быть не всегда удобны и просты в использовании. Не всегда можно понять, а что это за файл перед Вами - то ли это тот файл, что Вы ищете, то ли нет. Нет простого и универсального средства поиска на серверах anonymous ftp - хотя для этого и существует специальный сервис archie, но это неза­висимая программа, не универсальная и не всегда применимая. Про­граммы ftp довольно стары и некоторые их особенности, бывшие по­лезными при рождении, не очень понятны и нужны сегодня - так, на­пример, для передачи файлов есть два режима - бинарный и тексто­вый, и если Вы вдруг неправильно выбрали режим, то передаваемый файл может быть поврежден. Описания файлов на сервере выдаются в формате операционной системы сервера, а список файлов операци­онной системы UNIX может привести в недоумение пользователя DOS. Проблема тут в том, что со списком файлов выдается лишняя информа­ция, а слишком много знать всегда вредно. Серверы ftp нецентрализо­ванны, и это имеет свои проблемы. Несмотря на все это, серверы anonymous ftp сегодня - стандартный путь организации публичных фай­ловых архивов в Интернет. Вы можете также организовывать доступ к файлам под паролем - например, своим клиентам, ftp - сервис прямо­го доступа, требующий полноценного подключения к Интернет, но воз-


можен и доступ через электронную почту - существуют серверы, кото­рые могут прислать Вам по электронной почте файлы с любых серве­ров anonymous ftp. Однако это может быть весьма неудобно, ибо такие серверы сильно загружены, и Ваш запрос может долго ждать своей очереди. Кроме того, большие файлы при отсылке делятся сервером на части ограниченного размера, посылаемые отдельными письмами - и если одна часть из сотни потеряется или повредится при переда­че, то остальные 99 тоже окажутся ненужными.

Archie - это не самостоятельный сервис, но сервис, облегчающий работу с серверами anonymous ftp, обеспечивающий поиск файлов на таких серверах. Вам наверняка никогда не придется организовывать свой сервер archie, но пользоваться его услугами придется наверняка. Их всего существует с десяток, и каждый из них сильно загружен. Сер­веры archie «помнят» списки всех файлов на многих серверах anonymous ftp, и по Вашему запросу могут искать интересующий Вас файл по име­ни или части имени. Вы задаете шаблон для поиска, указываете харак­теристики поиска и получаете список имен серверов и мест располо­жения файлов на них, которые удовлетворяют Вашему запросу. Суще­ствуют специальные программы-клиенты archie, но можно воспользо­ваться услугами такого сервера, и соединившись с ним по протоколу telnet и войдя под именем archie. Если Вы представляете, как может называться файл, который Вы ищете, то archie - адекватное средство его поиска, то средство, которое приходится часто использовать в сво­ей работе. К недостаткам archie относится децентрализованность, вы­сокая загруженность серверов, необходимость уметь задавать шаблон имени для поиска файла. Каждый сервер обслуживает свой набор сер­веров ftp, возможно перекрывающихся - Вы можете не обнаружить не­обходимую информацию на одном сервере, но найти на другом, и кто знает, на каком искать прежде.