Лекция 13
Особенности поиска.
Морфология
По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Rambler понимает и различает слова русского и английского языков. По умолчанию поиск ведется по всем формам слова.
Например, при поиске по слову человек будут найдены слова: человек, человеком, люди. Чтобы вести поиск только по одной форме, слово нужно взять в двойные кавычки.
Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые СТОП-слова (самые частотные слова русского/английского языков: предлоги, частицы, артикли и т.д.). Совокупность СТОП-слов образует СТОП-словарь. Присутствие СТОП-слов замедляет поиск. Есть возможность включать стоп-слова из стоп-словаря в поиск. Для этого нужно взять слово в двойные кавычки.
Важной особенностью поиска является так называемое ограничение расстояния. Если в запросе содержится несколько слов без применения операторов и конструкций языка запросов, то будут найдены документы, содержащие все слова запроса. Но при этом для каждого запроса существует ограничение контекста. Это положительное число, равное расстоянию в 40 слов.
Документ, в котором встретились все слова запроса будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Т.е. расстояние измеряется количеством слов между словами запроса.
Например, по запросу Красная Армия будут найдены документы где слова красная и армия встретились меньше чем в 40-ка словах между словами запроса.
Для того чтобы сблизить расстояние поиска используют такую запись (2, Красная, Армия). Найдутся только те документы, в которых между словами Красная и Армия хотя бы раз не стоит ни одного слова, потому что лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2-х, т.е. равна 1. Следовательно, число указывает число, меньше которого разница между словами в предложении.
Если в запросе содержатся слова, которых нет в Интернет, тогда Rambler выдает результаты поиска по частичному запросу, в котором не найденные слова исключены, но при этом выдается диагностика.
Расширенный информационный поиск на основе методов корпусной лингвистики
Для увеличения релевантности и пертинентности поиска информации применяют различные методы. В основе этих методов лежат методы индексации документов, которые представляют собой создание поискового образа документов (ПОД). Идея заключается в том, что каждому документу соответствует некий компактный знаковый образ, который по объему значительно меньше, чем сам документ, но в то же время сохраняет все признаки контекста, т.е. содержания документа.
В ИПС, особенно в Интернет, в настоящее время существует проблема релевантности ПОД и ПОЗ.
Например, можно привести следующие факты. Если пользователь Интернет запросил телефон жителей Нью-Йорка, то Интернет выдаст ему адреса 25 бесплатных телефонных книг, но при этом пользователь номер телефонный так и не узнал.
Английский исследователь ИПС Моэрс (1960г.) сформулировал два закона, характеризующих проблему:
1-й закон: Потребитель уклоняется от использования ИПС всякий раз, когда для него более затруднительно и хлопотно искать информацию, чем обойтись без нее.
Одним из методов решения проблемы релевантности ПОД и ПОЗ является переход от поиска по словам к поиску по понятиям, которые эти слова представляют.
2-й закон: Как цветовые таблицы служат средством обнаружения дальтонизма у человека, так и метод дескрипторов есть средство выявления лиц «привязанных к словам» или «невосприимчивых к идеям».
Т.о., Моэрс утверждает, что повышение эффективности поиска заключается в переходе от поиска по словам к поиску по понятиям, которые эти слова представляют.
Один из путей решения этой проблемы дает корпусная лингвистика. Название корпусной происходит от понятия корпуса необходимой лексики. Корпус необходимой лексики представляет собой ограниченный объем слов и понятий, объединенный на основе данного типа коммуникации или взаимодействия пользователя и ЭВМ. Корпус лексики образуется на основе корпусов документов, которые отражают определенную систему понятий. При этом корпус необходимой лексики представляется с помощью дескрипторов, которые названы в случае корпусной лингвистики матрицами подобия. Они позволяют устранить бессмысленное лексическое сравнение по словам и осуществить переход к концептуальному поиску.
Одним из принципов корпусной лингвистики является антропоцентрический подход, т.е. учитывается, что собой реально представляет пользователь, как языковая личность.
Фактически идеи корпусной лингвистики реализуют системы искусственного интеллекта.
Матрицы подобия расширяют исходную лексику пользовательского запроса до понятийного. Сам процесс в ИПС принято называть расширением поиска.
Если запрос лексически однороден, то достаточно одной матрицы подобия, иначе требуется несколько матриц.
Исследования в области корпусной лингвистики показывают, что в ИПС возможен переход от лексической формы запроса к понятийному или дескрипторному. Но при этом основная проблема решения этой задачи – создание корпуса текстов, содержащего реальный речевой материал, который использовался в такого рода запросах.
При формализации этих понятий взаимодействие пользователя и ИПС представлена речевой моделью канала коммуникаций. Эта модель строится на основе ранее происходивших актов коммуникаций.
Проведенные исследования показывают, что каналы коммуникаций являются принципиально неоднородными. Это явление называется гетерогенностью коммуникативной среды.