Основные понятия
Лекция1. Основы технологии поиска в современных информационно-поисковых системах
1. Основные понятия. 1
2. Принципы текстового поиска. 6
3. Средства лингвистической поддержки. 12
4. Модели поиска. 14
5. Состояние разработок систем текстового поиска. 17
Контрольные вопросы.. 21
Литература: 22
Обмен информацией в обществе осуществляется главным образом в текстовой форме. Поэтому не случайно, что весьма значительную долю информационных ресурсов современных информационных систем составляет текстовая информация. Разработкам эффективных технологий хранения, обработки и поиска текстовой информации стало уделяться большое внимание уже на ранних стадиях развития информационных систем. Активные исследования и практические разработки в этой области начались еще в 50-х годах прошлого века, с того времени, когда средства вычислительной техники обеспечили возможность ввода-вывода текстовой информации.
Среди информационных систем, имеющих дело с текстовой информацией, наиболее распространенными являются системы текстового поиска. Их задача заключается в том, чтобы находить в хранимой в компьютере коллекции текстовых документов на естественном языке такие документы, которые интересуют пользователя.
Развитие систем текстового поиска стимулировалось в значительной мере потребностями информационной поддержки научных исследований и образования, разработками автоматизированных библиотечных систем. Однако в последние годы они все активнее используются также в управлении компаниями и во многих других сферах деятельности.Поиск информации с помощью компьютеров имеет уже почти полувековую историю. Первые автоматизированные информационные системы начали разрабатываться еще в 50-х годах прошлого века, и главной их функцией был именно поиск информации. Поэтому их назвали информационно-поисковыми системами (ИПС).
В зависимости от характера поддерживаемых информационных ресурсов эти системы было принято разделять на две категории: фактографические и документальные. Фактографические ИПС оперировали фактами, представленными в виде сущностей реального мира и их свойств, и позволяли находить сущности, обладающие заданными пользователем свойствами, а также свойства заданных сущностей. Когда в начале 1960-х годов начали зарождаться технологии баз данных, стало ясно, что информационная система этой категории представляет собой частный случай системы базы данных. В результате это направление в области информационного поиска постепенно было «поглощено» технологиями баз данных.
Документальные ИПС предназначены для хранения и поиска документов, содержащих тексты на естественных языках. Такие ИПС и представляют собой ранние системы текстового поиска.
Разрабатывавшиеся в этот период системы текстового поиска назывались дескрипторными ИПС. В таких системах содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами слов или словосочетаний, называемых дескрипторами. В процессе поиска ИПС оперирует не самими текстовыми документами, а такими их «заместителями», которые в большинстве систем формируются вручную авторами документов, экспертами в предметной области документов и другими лицами. Сопоставление наборов дескрипторов, представляющих в системе документы, с набором дескрипторов, представляющим пользовательский запрос, позволяет находить требуемые пользователю документы. Дескрипторные ИПС обладают относительно несложными механизмами поиска, но качество поиска является сравнительно невысоким.
Одной из наиболее распространенных областей применения дескрипторных систем был библиографический поиск. В таких системах хранятся коллекции библиографических описаний документов, и система позволяет находить публикации заданного автора, публикации, выпущенные указанным издательством и/или вышедшие в некотором году и т.п. Многие библиографические дескрипторные ИПС используются до настоящего времени.
В процессе развития средств вычислительной техники компьютеры обрели устройства внешней памяти прямого доступа достаточно большого объема, значительно повысилась производительность процессоров. Это позволило создать и практически использовать в документальных ИПС более совершенные технологии, называемые технологиями полнотекстового поиска.
Благодаря возможности хранения и обработки в таких системах полных текстов документов удалось в большой мере автоматизировать процессы лингвистического анализа и поиска документов. Были разработаны подходы к автоматизации составления ряда используемых при этом словарей и тезаурусов. В технологиях полнотекстового поиска важное место занимают статистические методы анализа документов. Первоначально в полнотекстовых системах обеспечивался главным образом контекстный поиск, т.е. поиск документов, тексты которых содержат вхождение заданного в пользовательском запросе контекста. Позднее стал использоваться поиск по булевскому критерию. Были разработаны также различные более тонкие модели поиска.
На протяжении всей истории систем текстового поиска активно проводились научные исследования в этой области. Большое влияние на развитие систем текстового поиска оказали новаторские исследовательские проекты и разработки экспериментальных прототипов полнотекстовых поисковых систем, выполненные в 60-х годах прошлого века. Этот период характеризуется значительными продвижениями в разных аспектах организации систем текстового поиска и используемых в них методов. В настоящее время перспективные разработки в рассматриваемой области концентрируются вокруг авторитетной международной конференции по текстовому поиску ТRЕС (Техt Retrieval Соnfегеnсе), учрежденной в 1992 г. в США Американским национальным институтом по стандартам и технологиям (NIST).
Активное развитие технологий текстового поиска и информационных потребностей пользователей стимулировали трансформацию ИПС из систем текстового поиска в системы более общего класса, которые имеют дело не только с текстовыми документами, но и с документами, содержащими информацию иной природы. В таких системах (их называют мультимедийными) содержание их объектов поиска — документов — составляет сочетание информационных ресурсов, представленных в различных средах, — текстовых элементов, статических изображений, аудиоданных (музыкальные произведения, текст, произнесенный голосом, и т.п.), мультфильмов, видеоклипов и т.п.
Вероятно, для того чтобы различать системы текстового поиска и поисковые системы, оперирующие этими иными видами информационных ресурсов, в последние годы наряду с термином информационно-поисковая система (Information Retrieval System) стал употребляться термин система текстового поиска (Техt Search System или Техt Retrieval System).
Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок. Эта область охватывает большой спектр проблем — от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации. К ней относятся также проблемы обеспечения интерфейсов между пользователями и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. В системах текстового поиска находят применение как аналитические, так и эмпирические подходы.
Значительное место в технологиях текстового поиска занимает обработка естественного языка, т.е. компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.
В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.
Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине 1990-х годов, в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Веб, мультиязыковой поиск.
За свою полувековую историю развития технологии текстового поиска сделали огромный шаг от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Ресурсы современных вычислительных систем позволяют хранить огромные объемы информационных ресурсов в системах текстового поиска, осуществлять в них не только технические, но и алгоритмически сложные процедуры обработки хранимых коллекций документов — их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.
Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения и конечно же технологиям текстового поиска.
Развитие технологий текстового поиска в последние годы довольно интенсивно продолжается благодаря активным исследованиям и разработкам, проводимым во многих странах. Сформировалась индустрия коммерческого программного обеспечения для систем текстового поиска. Такие системы разрабатываются и широко используются и в нашей стране.
Как уже отмечалось, технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольно велико — это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр.
Основная единица информации в системах текстового поиска называется документом. Документ — это не юридическая сущность, а содержательно законченная идентифицируемая уникальным образом единица информации, представленная на каком-либо естественном языке. В ранних ИПС документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах текстового поиска содержание документа доступно системе для обработки и анализа.
Полнотекстовые системы текстового поиска оперируют электронными документами, т.е. документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерный лингвистический анализ и обработка текстовых документов возможны лишь в случае, если программно-доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать текстовый документ на бумажном носителе и сохранить полученное его факсимиле в памяти компьютера в виде графического файла какого-либо формата. Необходимо иметь документ в оцифрованном виде, т.е. в таком формате, что каждая литера текста этого документа программно-доступна. Система может, таким образом, оперировать элементами содержания оцифрованного документа. Представление текстового документа в оцифрованном виде может быть создано, например, с помощью:
• ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;
• сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optikal Character Recognition – OCR);
• генерации текста программным путем распознавателями голоса или какими-либо другими способами.
Совокупность хранимых в системе документов по-разному называется в разных системах (поисковый массив, архив и т.п.). В последнее время для этой цели часто используется термин «коллекция документов». Каждая система текстового поиска, вообще говоря, может поддерживать несколько различных коллекций документов.
Документы хранятся в системе текстового поиска для того, чтобы удовлетворять информационные потребности пользователей. Представление информационных потребностей пользователя в форме, воспринимаемой программным обеспечением системы текстового поиска, называется пользовательским запросом (или просто запросом). Необходимым компонентом содержания пользовательского запроса является описание тех свойств, которыми обладают документы, интересующие пользователя. Это описание естественно называть критерием поиска.
Следует подчеркнуть, что единицей гранулярности поиска, т.е. наименьшей единицей информации, которая может выдаваться пользователю в результате обработки заданного им запроса, в большинстве систем текстового поиска является именно документ, а не какая-либо его порция. Как правило, в результате обработки пользовательского запроса система выдает множество результирующих документов, удовлетворяющих заданному в запросе критерию.
Критерии поиска в пользовательских запросах могут иметь различную форму. Например, это может быть набор термов (слов или словосочетаний), содержащихся в требуемых документах, или термов, соединенных символами булевских операторов. В последнем случае булевский оператор интерпретируется как условие одновременного (оператор «И») вхождения связываемых им слов в документ, альтернативного вхождения (оператор «ИЛИ») или отсутствия вхождений (оператор «НЕ») следующего за ним терма. В более сложных случаях роль критерия поиска может выполнять предложение на естественном языке или даже пример документа, удовлетворяющего информационным потребностям пользователя. Анализируя такой документ, система выделит термы для формирования некоторого «внутреннего» вида этого пользовательского запроса.
Хранящиеся в системе документы, которые соответствуют пользовательскому запросу, называются релевантными.
Релевантность документа не обязательно должна оцениваться в терминах двузначной логики («да — нет»). В некоторых развитых системах используются более тонкие оценки, которые вычисляются как значения специально подобранной числовой функции (функции релевантности), принимающей значения в интервале [0 ÷ 1]. В таких случаях уместно говорить о степени релевантности документа, понимая ее как значение этой функции. Некоторые системы текстового поиска выдают пользователю множества документов, полученных в результате обработки запросов, упорядочивая документы по убыванию степени релевантности. Такое упорядочение найденных документов называют их ранжированием. Пользователь более эффективно может анализировать ранжированное множество результирующих документов запроса. С большой вероятностью наиболее интересующие его документы из числа найденных находятся в начале выводимого списка документов.
В силу различных причин, связанных, в частности, с трудностями автоматизации понимания естественного языка, а также с неточностью отображения информационных потребностей пользователя в запросе, в результате обработки пользовательского запроса могут быть найдены документы, не соответствующие информационным потребностям пользователя. Такое явление называется информационным шумом.
Важными характеристиками качества поиска в системах текстового поиска являются полнота и точность поиска. Полнота поиска определяет отношение количества релевантных документов, выдаваемых в результате обработки пользовательских запросов, к количеству фактически имеющихся в системе релевантных документов. Для количественной оценки точности поиска может служить доля релевантных документов во множестве результирующих документов запроса.