Лекция 10.Автоматическое рубрицирование
В современных исследованиях по данной проблеме выделяют два основных подхода: рубрицирование, основанное на знаниях, и рубрицирование, основанное на обучении по примерам.
Методы автоматического рубрицирования, основанные на знаниях
В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель.
В первом случае знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений.
Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. Тезаурус может быть разработан независимо от какой-либо системы рубрицирования. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрипторов). В качестве вариантов (синонимов или эквивалентов) дескрипторов в тезаурусе встречаются именные и глагольные группы, отдельные существительные, прилагательные или глаголы. Тезаурус может быть разработан в полуавтоматическом режиме. Например, сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. Затем выбранные группы слов исследуются экспертами, и принимается решение относительно того:
1. может ли данная группа слов быть включена в тезаурус (в этом случае она становится термином);
2. является ли данный термин дескриптором или синонимом другого дескриптора;
3. как должны быть описаны отношения данного термина.
Кроме того, в комплекс знаний могут также быть включены дополнительные базы данных, например: географическая база данных, содержащая описания географических объектов, база данных организаций, персоналий и т.д.
Тезаурус и базы данных имеют одну структуру и состоят из следующих частей:
1.Дескрипторов, которые соответствуют понятиям или конкретным объектам. Обычно дескриптором является существительное или именная группа.
2. Каждый дескриптор имеет совокупность текстовых входов или синонимов. Текстовый вход может быть существительным, прилагательным или группой существительного. Одно слово может быть синонимом различных дескрипторов. Устранение смысловой неоднозначности производится во время автоматического обработки документа.
3. Отношения между дескрипторами внутри каждой базы данных, например:
- более широкий термин (выше);
- более узкий термин (ниже);
- связанный термин (ассоциация);
- целое для термина (часть);
- часть для термина (целое).
4.Отношения между дескрипторами различных баз данных. В данном случае добавляется отношение - "равенство термина", которое появляется, когда базы данных содержат дескрипторы, соответствующие одному понятию или объекту.
Дескриптор D1 находится в дескрипторной среде дескриптора D, если между D1 и D существует дескрипторное отношение или существует транзитивная зависимость. Дескриптор D называют главным дескриптором среды.
Иерархическая организованность тезауруса и наличие тезаурусных связей позволяет использовать понятия среды дескрипторов и главных дескрипторов (опорных дескрипторов) среды для формирования дескрипторных кустов, используемых при автоматическом рубрицировании текстов в данной технологии. В целом же комплекс знаний представляет собой иерархическую сеть, полнота и целостность которой поддерживается и отслеживается экспертами.
Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм:
1. дизъюнкция опорных дескрипторов 1 2 n D D D Ъ Ъ Ъ K ;
2. конъюнкция дизъюнкций опорных дескрипторов
( ) ( ) 11 12 1 1 2 & & n n n nn D D D D D D Ъ Ъ Ъ Ъ Ъ Ъ K K K .
После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизъюнкций рубрики входит данный дескриптор.
Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанавливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор рубрики) в иерархии дескрипторного куста. Одной рубрике может соответствовать несколько опорных дескрипторов.
Дальнейшее развитие данной технологии состоит в предоставлении пользователю возможности описывать рубрику на ЕЯ. Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик. Представленная технология автоматического рубрицирования текстов позволяет классифицировать различные типы текстовой информации, быстро настраиваться на различные рубрикаторы и типы документов. Но и имеет существенные ограничения в своем использовании, так как трудоемкость разработки тезауруса достаточно высока и требует больших временных затрат (от нескольких месяцев до нескольких лет), кроме того, формирование тезауруса производится в соответствии с той или иной предметной областью, что делает невозможным использование одного тезауруса при классификации текстов из различных предметных областей.
Основу методов, использующих продукционную модель представления знаний, составляет выделение из текста концепций (или понятий), заранее описанных экспертом.
Каждое понятие предметной области описываются экспертом при помощи особой конструкции - определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединять эти слова и фразы при помощи стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов-шаблонов (&, * и т.д.), что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа. Поскольку описание понятий производится экспертом вручную, то это не доставляет особых неудобств, зато позволяет значительно повысить производительность. В дополнение к этим функциям в языке определения понятий может быть предусмотрена возможность введения контекстуальных ограничений, заключающаяся в указании порядка следования слов в тексте, расстояния между словами и т.д. Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия. Ниже приведен пример определения понятия золото:
(gold (&n (reserve! medal! jewelry)))
Процесс рубрицирования разбивается на два этапа. Первым из них является выделение понятий из текста, которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений. Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения.
На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами. Решение принимается на основе правил рубрицирования, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил
Язык правил позволяет основывать решения на комбинации понятий, появившихся в тексте. Кроме того, он позволяет учесть вероятность появления, а также положение каждого понятия в тексте. Существует также возможность учета длины сообщения. Совокупность определений понятий и правил рубрицирования составляет базу правил, (см. рис. 7)
Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечения высококвалифицированных специалистов, как в предметной области, так и в области инженерии знаний. Суть этого процесса заключается в обработке большего массива отрубрицированных документов, в ходе которого для каждой из рубрик выявляются статистические закономерности, основанные на частоте встречаемости слов и фраз, а также совместной частоте встречаемости отдельных из них. Полученные данные затем используются экспертами при выявлении характерных слов и фраз для описания понятий и формирования правил рубрицирования.
Рис.7. База правил
Преимуществами данного подхода являются высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались. Основными недостатками подобных систем являются, как и в предыдущем случае:
1. высокая трудоемкость и значительные затраты, необходимые для разработки системы;
2. жесткая привязка баз знаний и алгоритмов к предметной области, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов.
Большинство же систем автоматического рубрицирования текстов требуют более быстрого и дешевого построения.