Основные задачи технологии текстового поиска
Понятие технологии текстового поиска
Вопрос 6. Технологии текстового поиска
1. Текстявляется одной из основных форм обмена информацией в обществе. Поэтому текстовые сообщения преобладают в информационных системах.
Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.
Технологии текстового поиска имеют дело с информацией. Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.
Основной единицей информации в системах текстового поиска является документ - объем информации, обладающий законченным содержанием и какого-либо рода уникальным идентификатором.
Системы текстового поиска оперируют электронными документами - документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде - формате, когда каждый компонент текста программно доступен. Представление текстового документа в оцифрованном виде создается с помощью:
ü ввода содержания, документа с клавиатуры с использованием какого-либо текстового редактора;
ü сканирования его с бумажного носителя и использования программы распознавания оптических символов;
ü генерации текста программным путем распознавателями голоса и другими способами.
2. Современные технологии текстового поиска охватывают большой спектр проблем:
ü теория информационного поиска;
ü методы удовлетворения потребностей пользователей в:
· сборе информации;
· организации информации;
· хранении информации;
· поиске информации;
· распространении информации;
ü обеспечение интерфейсов между пользователем и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде.
Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под ней понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относится к области искусственного интеллекта.
В середине 1990-х гг. во многих странах мира развернулись работы, связанные с созданием электронных библиотек. Они в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как:
ü обнаружение информации в глобальной компьютерной сети;
ü текстовый поиск в Web;
ü мультиязыковой поиск.
Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких мультимедийных системах содержание объектов поиска - документов - представляет собой сочетание:
ü текстовых элементов;
ü статических изображений;
ü музыкальных произведений;
ü мультфильмов;
ü видеоклипов и т. п.
Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и в других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.