Эффективная технология работы с несистематизированными потоками информации в Интернет.

Архивирование Интернет-ресурсов.

Высокодинамичный характер Интернет-ресурсов определяет необходимость создания системы архивирования наиболее ценных (социально значимых) ресурсов. Деятельность по архивированию весьма многообразна и требует участия как государственных (библиотек, архивов, других информационных центров), так и негосударственных организаций. Естественно, что архивирование должно осуществляться полным соблюдением прав владельцев соответствующих ресурсов.

 

Любой пользователь при работе в Интернет сталкивается с задачей поиска нужной информации в больших информационных массивах. Уровень сервисных услуг, предоставляемых поисковыми системами Интернет, обычно оценивается по двум критериям:

- размер базы данных поисковой системы (чем больше база данных, тем большее количество сайтов известно данному поисковику, а следовательно, тем точнее поиск);

- информативность выдаваемых результатов.

Согласно результатам исследований, опубликованных в журнале Nature, наибольший охват адресов в Интернет сегодня обеспечивают следующие поисковые системы: Nothern Light - 16%, за ней - Alta Vista - 15.5%, на третьем месте - 11.3% - Hotbot. Ведутся разработки поисковой системы под амбициозным названием Alltheweb (по русски - всясеть). Компания Fast Search and Transfer ASA, разработчик новой системы, сообщает что скоро охватит все 100% web- адресов Всемирной паутины. Другие, более простые поисковые системы (в том числе и отечественные), не обеспечивают включения множества сайтов в свои поисковые каталоги.

Российский сегмент Интернет сегодня составляет менее 1% от мирового и охватывает около 2 млн. пользователей. Но и эта немаленькая цифра неуклонно растет. Сеть увеличивается как по широте охвата, так и по объему хранящейся в ней информации (по некоторым оценкам объем информационных ресурсов мирового Интернет увеличивается примерно на миллион страниц в день). Поисковые системы стараются адекватно реагировать, наращивая и скорость выполнения поиска, и величину охвата Интернет-пространства. Логичным результатом этого является увеличение числа ссылок на Интернет-ресурсы в результате поиска.

Всем понятно, что поиск может считаться хорошим, если удается найти нужную информацию на одной из первых страниц результатов поиска. В этом смысле очень важна грамотная сортировка по релевантности. Приведем перечень основных критериев, которые учитывает поисковая система Апорт-2000 при сортировке документов (сайтов):

Ø количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа;

Ø место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.);

Ø внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);

Ø количество ссылок из Интернет на данный документ;

Ø использование искомого слова в тексте ссылок из Интернет на данный документ.

Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. Исследования показали, что пользователь может просмотреть максимум несколько десятков найденных в результате поиска материалов, а поисковые системы выдают порой сотни, тысячи, десятки и сотни тысяч ссылок, просмотреть которые в разумные сроки не представляется возможным. Таким образом, серьезность проблемы очевидна.

Обычно данная проблема решается ужесточением условий поиска. Распространено мнение: "Лучше потратить значительное время на формулировку запроса, зато получить выборку нужных документов". Абсолютно верная позиция, если ищешь документ, в существовании которого в данном массиве полностью уверен. Если же ответ на поставленный вопрос содержится в распределенном виде во многих документах, очень четкий запрос позволит получить, скорее всего, заранее подготовленную кем-то информацию на заданную тему: аналитические статьи, обзоры. Аналитику, не имея возможности получить первичную информацию, сложно оценить достоверность сделанных выводов и неангажированность авторов материалов. Ценность полученной в результате запроса информации весьма спорна. И это при том, когда известны ключевые слова для поиска, что тоже не всегда возможно. Поэтому, на практике аналитику приходится начинать поиск с самых общих запросов, постепенно сужая область поиска. Подход правильный, но очень трудоемкий - приходится просматривать сотни материалов, а некоторые из них внимательно прочесть. Данная работа может растянуться на длительное время, а вопрос порой требует оперативного ответа, поэтому приходится выбирать одно из двух: либо оперативность, либо достоверность.

В работе [10] предлагается совершенно иной метод работы с неструктуризированной текстовой информацией. Существенное отличие предлагаемой системы от обычных информационно-поисковых систем заключается в том, что для быстрого анализа содержания документа каждая ссылка на данный ресурс сопровождается так называемой электронной аннотацией (информационный образ документа, формируемый лингвостатистическими методами). При этом электронная аннотация представляет собой самостоятельный информационный объект с новыми, уникальными свойствами, которая формируется предварительно, причем полностью автоматически, без вмешательства оператора. Назначение аннотации: с одной стороны, быстро, не читая весь текст, оценить его содержание и определить соответствие текста заданным параметрам поиска. С другой стороны, с ее помощью выделить ключевые факты, события, имена собственные, раскрыть наиболее значимые факторы и системные взаимосвязи анализируемой проблемы.

При наличии недельного опыта эксплуатации, у пользователя активно включается в работу подсознание, появляются навыки интегрального, качественного восприятия информации. При этом текстовые фрагменты объемом в сотни строк анализируются в течение 2-3 секунд. Подобная скорость «сканирования информационного пространства» обуславливает появление совершенно нового взгляда на проблему информационного поиска, выборки и фильтрации текстовых сообщений.

На любом более-менее крупном предприятии имеется несколько отделов (структур), которые в своей работе регулярно сталкиваются с необходимостью получения оперативных ответов на вопросы из самых разных профессиональных областей. Для успешного ведения бизнеса и адекватного ответа на внешние воздействия приходится отслеживать изменение множества параметров. Как известно, около 30% секретной информации содержится в открытых источниках. Возможность эффективно «просеивать» огромные массивы общедоступной информации (например, архивы материалов центральных средств массовой информации за несколько лет), позволяет оперативнополучить комплексный портрет предприятия или физического лица (бизнесмена или политика), собрать воедино все фрагменты, не упуская специфических нюансов. Например:

· Для службы безопасности особенно актуальны анализ надежности новых партнеров и их окружения, мониторинг состояния постоянных партнеров и текущих проектов, оценка и прогноз рисков и пр.

· Для отдела стратегического планирования и управления важен анализ деятельности предприятия, макроэкономический анализ и прогнозирование состояния страны и собственного сегмента рынка, расширение и диверсификациясфер бизнеса, разработка оптимальных маркетинговых и бизнес-стратегий развития и т.д.

Ввиду невозможности держать в штате большое число специалистов различного профиля, на первый план выходят специалисты- аналитики по работе с информацией и современные информационные технологии.Как показывает практика, один аналитик, эксплуатирующий подобную систему, позволяющую формировать интегральные образы текстовых материалов, способен:

· В течение 5-10 минут оценить имеется ли искомая информация в базе данных, степень детализации отдельных аспектов проблемы, качество возможного ответа на поставленный вопрос;

· В течение 1-2 часов подготовить качественный обзор изучаемой проблемы, не будучи специалистом в исследуемой предметной области, справку о событии или явлении с учетом существующих точек зрения;

· В течение рабочего дня сформировать заготовку полновесного серьезного аналитического отчета с «сеткой» возможных выводов и рекомендаций.