Во всемирной паутине исчезают лабиринты

Текст 1

Представим такую простую ситуацию: мужчина-холостяк захотел сварить гречневую кашу. Ему хотя бы надо знать, сколько крупы на сколько воды надо всыпать. Поваренной книги дома нет. Зато дома есть компьютер с доступом в Интернет! Ну как не найти в Интернете такую простую вещь, как рецепт гречневой каши? Выбираем известный поисковый сервер – Yandex. Даем задание – «гречневая каша». Ответов – масса, но по делу – почти ничего.

Вначале Яндекс предлагает решить проблему «оптом» и обратиться в Волгоградский консервный цех. Второе его предложение выглядит таким же «заманчивым» – Интернет-магазин «Виртуальный детский мир». В следующей ссылке намекается, что Курской области почему-то за депутатский мандат и гречневой каши не жалко.

Наконец мы находим три рецепта на выбор! Но ради любопытства смотрим дальше. Яндекс выдает самое сокровенное, что знает про гречневую кашу: «Оладьи из гречневой каши», «Лещ с гречневой кашей» и «Гречневая каша по старым кулинарным рецептам». Кушать подано!

Ни для кого не секрет, что возможности многих поисковых систем весьма ограничены. Возьмем, к примеру, известный каталог Yahoo. Он составлен анонимными авторами и представляет собой всего лишь перечень ссылок на избранные сайты. Другие популярные поисковые системы, такие как AltaVista, Excite, Lycos, постоянно высылают специальные программы-пауки. Они путешествуют от одного Интернет-сайта к другому, собирают кусочки текста с каждой встреченной на пути страницы и составляют список найденных ключевых слов. Но в ответ на ваш запрос поисковый сервер быстро обследует не саму Всемирную Паутину, а этот далеко не полный список.

Как добиться скорости и точности? Неудивительно, что поисковым системам становится все труднее справляться с ростом объема информации сети: во Всемирной Паутине уже насчитывается более пяти миллионов сайтов и полутора миллиардов страниц с информацией. По оценкам экспертов, ежедневный прирост количества информации в сети составляет два миллиона страниц, а наилучшие поисковые системы могут перекрыть не более 16% из них по сравнению с 34% в 1997 году. Программам-паукам требуются месяцы для путешествия по сети. А в это время появляются, изменяются и исчезают десятки миллионов страниц.

Насколько безнадежен будет ваш поиск? Некоторые веб-инженеры пытаются компенсировать отставание путем разработки более быстрых и эффективных версий программ-пауков. Другие пытаются улучшить саму природу поискового процесса, организуют его по типу человеческого. Норвежская компания «Быстрый поиск и доставка» (Fast Search and Transfer— FAST) разработала программы-пауки на стероидах, которые могут индексировать до 80 миллионов страниц ежедневно – вдвое больше, чем программы, запускаемые обычными поисковыми серверами. Вместо сбора информации от пауков в форме одного большого списка, FAST делит информацию на несколько сотен более удобочитаемых кусков и сканирует все их одновременно, делая более 600 выборок в секунду.

Эксперты полагают, что точность поиска все-таки важнее объема. Программы-пауки не имеют такой мощности, как программы FAST. Другая подобная программа-паук, Northern Light, классифицирует страницы по разным критериям, включая создание списка на заказ из 25 000 тематических разделов. Команда специалистов-библиотекарей затем вручную проверяет классификацию. Когда кто-нибудь что-то ищет, система раскладывает результаты по папкам, снабжая каждую тематическим заголовком.

Northern Light и FAST в основном полагаются на случайный механический поиск, поэтому следующим логическим шагом будет придание поисковым программам способности распознавать логические связи между сайтами.

В 1960-х годах Стэнли Милгрэм – специалист по социальной психологии из Йельского университета – создал теорию шести шагов. Он доказал, что любые два совершенно незнакомых человека в мире могут быть связаны цепочкой не более чем из шести знакомств. В настоящее время рассматривается возможность приложения этой социальной теории к Интернету.

Исследователи доказали, что Интернет является миром в миниатюре. Они провели статистическое исследование, в ходе которого было установлено, что среднее количество щелчков мышью, которое требуется для путешествия между двумя выбранными наугад веб-страницами, равно девятнадцати. Даже если размеры сети возрастут в десять раз от ее сегодняшнего размера, среднее количество щелчков увеличится только до двадцати одного.

Вывод: люди в состоянии быстро находить любую страницу в сети, если они знают, где правильно начать поиск и как дальше перемещаться. Поисковые программы, запрограммированные на поиск таких цепочек, могут послужить ключом к решению проблемы. Если программа поиска отслеживает структуру связей, обнаруживаемых в ходе поиска, тогда необходимость в полной индексации отпадает сама собой.

Такие «разумные» программы-пауки уже создаются. Разработана поисковая программа под названием CLEVER. Она использует программы-пауки с некоторой долей интеллекта, похожего на человеческий. Разыскиваются так называемые хабы – узлы, на которых имеется большое количество ссылок по определенной теме, а также авторитетные или популярные страницы – на них указывают большое количество других веб-сайтов на своих страницах с рекомендуемыми ссылками.

CLEVER присваивает каждой такой странице определенный рейтинг. Он определяется качеством страницы и количеством сайтов, которые указывают на нее. Циклически повторяя этот процесс, поисковая система быстро находит лучшие хабы и авторитетные сайты. Вместо того, чтобы доверять спискам ссылок, на поисковых серверах подобных Yahoo или America Online, CLEVER полагается на мнения истинных экспертов – миллионов людей, которые создали свои веб-страницы и поместили там ссылки на свои любимые сайты.

Существует возможность повысить роль коллективного разума в сети, если придавать большее значение персональным интерактивным (онлайновым) соединениям. Предполагается, что миллионы людей ведут тот же самый поиск, что и вы. Так почему бы не объединить усилия? Для этого и необходима программа, которая действовала бы как общественный координатор поиска и каталогизировала запросы многих людей, ищущих однотипную информацию. Например, поиск по ключевым словам «цифровые фотокамеры» в результате создаст список фотокамер, найденных другими, с указанием наиболее популярных моделей.

Одним из перспективных путей для «очеловечивания» процесса поиска является организация его с возвратом меньшего количества ненужной информации. Такое усовершенствование означает отказ от нескончаемых, трудно воспринимаемых списков текстов и ссылок. Киберграфическая программа WebTheme отражает результаты поиска в виде светящейся галактики, каждая световая точка на которой представляет отдельную веб-страницу, а созвездия обозначают близкую тематику. Эта программа может показывать и результаты поиска в виде топографической карты, на которой горные пики соответствуют отдельным темам.

Когда одновременно большое количество людей интересуются определенной темой, происходит процесс так называемой групповой фильтрации. Благодаря этому можно устанавливать чрезвычайно точные прогнозы. Существует феномен коллективного предсказания результатов футбольных матчей, который во многих случаях дает невероятно точные результаты. Каким-то образом множество предположений о результате матча статистически уравновешивается на правильных цифрах.

При определенной доле удачи процесс поиска в Интернете, основанный на подобных методиках, приведет к желаемым результатам. Уже недалек тот день, когда интеллектуальные программы-пауки соткут воедино разрозненные кусочки Всемирной Паутины в единое кибер-полотно.

(Н. Колчев, «Человек и наука», октябрь, 2001)

5rik.ru

Материалы для учебы и работы

Во всемирной паутине исчезают лабиринты