Расширение функциональных возможностей текстовых систем.

Состояние разработок систем текстового поиска

Системы текстового поиска в последние годы стали активно использоваться в самых различных областях деятельности. В то время как первоначально они разрабатывались главным образом как инструмент для библиотечного дела, в настоящее время они нашли применение в различных организациях для работы с их текстовыми информационными ресурсами. Особенно интенсивно технологии текстового поиска начали развиваться с появлением глобального информационного пространства Веб.

Круг проблем в области текстового поиска. В настоящее время проблематика текстового поиска стала довольно обширной. Она охватывает различные области теории и разработки систем текстового поиска, такие, как:

• развитие конкретных моделей поиска;

• методология проведения экспериментов, тестирования и оценки систем;

• методы реализации текстового поиска;

• подходы к интеграции технологий текстового поиска и баз данных;

• поиск в среде Веб;

• методы сжатия данных;

• оценка эффективности обработки запросов;

• обработка естественного языка;

• методы классификации и кластеризации текстовых документов;

• приложения информационного поиска в электронных библиотеках;

• глубинный анализ текстов;

• технологии индексирования и поиска мультимедийной информации;

• интерфейсы «человек — компьютер» и т.д.

Разработчики систем текстового поиска уделяют большое внимание не только совершенствованию механизмов выполнения их базовых функций, но и развитию ряда дополнительных возможностей, позволяющих существенным образом увеличить эффективность поиска, повысить управляемость системы, обеспечить более комфортные условия для работы пользователя. Перечислим некоторые такие возможности.

Повышение точности поиска. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать веса используемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация используется при вычислении оценок релевантности документов информационным потребностям пользователя, и тем самым существенно повышается точность поиска.

Ранжирование результирующих документов запроса. В силу рассмотренных ранее причин системы текстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Количество результирующих документов обычно бывает значительным. Поэтому очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились документы, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска, предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам степени их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности — важная функция, позволяющая повысить эффективность поиска требуемых пользователю документов. Дело в том, что результаты обработки запроса могут не удовлетворять пользователя. В таких случаях во многих системах текстового поиска пользователю предоставляется возможность уточнить запрос. Для этого он может дать оценку релевантности полученных документов — указать, какие из них он считает релевантными или нерелевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, т.е. тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее выражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Автоматическое расширение пользовательских запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска.

Исходное представление запроса может пополняться за счет:

синонимов термов, содержащихся в запросе, если система располагает тезаурусом, поддерживающим отношение синонимии;

термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области, например представляют часть понятия, соответствующего некоторому терму запроса, и т.п.;

термов результирующих документов, оцененных пользователем как релевантные или нерелевантные, в системах, обеспечивающих обратную связь релевантности;

• часто встречающихся орфографически ошибочных форм некоторых термов запроса и т.д.

Автоматическое индексирование документов. Исследования, проведенные еще на ранних стадиях развития систем текстового поиска, показали, что автоматическое индексирование документов не уступает по качеству ручному индексированию. Поэтому в современных развитых системах используется автоматическое индексирование.

Мулътиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, которые при этом возникают, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты.

Кросс-языковой поиск. Существуют такие системы текстового поиска, в которых возможны ситуации, когда информационные потребности пользователя определены на одном языке, а документы коллекции, в которой должен осуществляться поиск, представлены на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике, например в системах международных организаций, транснациональных компаний или какой-либо организации в стране, где существует несколько государственных языков.

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках. Для ее решения необходимо использовать перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы — пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или части документа.

Текстовый поиск в системах баз данных.Интеграция ресурсов баз данных и коллекций текстовых документов, а также использование инструментария систем баз данных для реализации систем текстового поиска уже давно востребованы практикой разработки информационных систем.

Действительно, текстовые документы могут обладать различными структурированными характеристиками, и в таких случаях может потребоваться не только традиционный поиск по содержанию документов, но и поиск по значениям таких ассоциированных с документами внешних атрибутов. Поддержка связей между ассоциированными с документами атрибутами и соответствующими им документами, а также поиск документов по значениям ассоциированных с ними атрибутов вполне вписываются в обычные технологии баз данных. Кроме того, механизмы среды хранения СУБД могут быть использованы и для хранения самих документов.

Вместе с тем информационные ресурсы, которыми оперируют системы баз данных, часто включают наряду со структурированными данными также и связанные с ними текстовые документы. Поэтому необходимость текстового поиска возникает и в среде традиционных систем баз данных. В связи с указанными причинами традиционные СУБД стали оснащаться механизмами текстового поиска по содержанию документов.

Технологии текстового поиска поддерживаются в настоящее время многими реляционными и объектно-реляционными серверами баз данных, например СУБД DB2 компании IBM, Oracle компании Oracle Corp., и SQL- Server 7.0 и SQL- Server 2000 компании Microsoft Corp. Нужно заметить, однако, что в большинстве таких СУБД механизмы текстового поиска не обеспечивают реализации продвинутых моделей поиска, которые обсуждались выше. Чаще всего дело ограничивается поддержкой булевской модели поиска, иногда с расширением запросов, с механизмами полнотекстового индексирования и с некоторыми другими дополнительными возможностями.

Поиск текстовых ресурсов в Веб. С ростом объема информационных ресурсов Веб проблема использования технологий текстового поиска в этой среде становится все более актуальной. Навигационный доступ к информационным ресурсам Веб не обеспечивает достаточно оперативного доступа к ним.

При реализации технологий текстового поиска в Веб учитываются специфика Веб как среды поиска, особенности поддерживаемых в ней информационных ресурсов, а также поведения пользователя при взаимодействии с Веб.

Ранние поисковые системы Веб, называемые также поисковыми машинами Веб, обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Веб значительно вырос. Разными коллективами проводятся многочисленные и разнообразные исследования в этой области. В настоящее время существует целый спектр систем текстового поиска для Веб. Среди них имеются системы универсальные и ориентированные на определенные предметные области, системы международного и национального масштаба. К их числу относятся крупнейшая многоязыковая поисковая система AltaVista, системы Yahoo!, Google, поисковая система по русским страницам Веб Яndex и многие другие. Они различаются областью действия — составом сканируемых веб-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Некоторые системы обеспечивают ранжирование результирующего множества документов, поддерживают обратную связь релевантности. Система AltaVista реализует возможности поэтапного сокращения области поиска. После проведения поиска пользователю предоставляется гистограмма, характеризующая статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе.

Весьма серьезных новых достижений в развитии систем текстового поиска в среде Веб можно ожидать в связи с интенсивными разработками платформы XML — технологической платформы Веб нового поколения. Важно заметить, что системы текстового поиска в Веб, основанные на стандартах платформы XML, обеспечивают уменьшение гранулярности поиска. Объектами поиска при этом вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Кроме того, представление текстовых информационных ресурсов Веб средствами XML позволяет использовать различные средства описания их семантики и на этой основе существенно снизить уровень информационного шума при обработке пользовательских запросов.

Новые требования к системам текстового поиска. Новые условия применения и рост потребностей пользователей выдвигают новые, более высокие требования к системам текстового поиска. Перечислим главные из них:

• обеспечение способности систем текстового поиска эффективно работать с очень большими коллекциями документов;

• разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов;

• обеспечение возможностей для совместной обработки текстовых документов с документами иной природы — статическими изображениями, аудио, видео и др.;

• разработка эффективных методов поиска не только в статических коллекциях, но и в потоках документов;

• создание методологии оценки систем текстового поиска, построение текстовых коллекций, проведение экспериментов.

Контрольные вопросы


++++++++++++++++++++++++++++++++