Морфологическая информация, этапы морфологического разбора текста

Цель МА — определить принадлежность некоторой словоформы к парадигме

определенной лексемы и грамматические признаки для этой словоформы – морфологическую

информацию (МИ) для использования ее на последующих этапах обработки ЕЯ текста.

Так для существительных этими признаками будут: род, число, падеж и склонение, для

прилагательных: род, число и падеж; для глаголов - время, лицо, число, спряжение, вид; для

местоимений – число и лицо. Классификация морфологических признаков слов русского языка

изображена на рисунке 1.

Рис.1. Морфологические признаки слов русского языка

Для русского языка, как и для большинства синтетических языков, задача лексико-

грамматического разбора решается довольно просто и почти стопроцентной точностью, благодаря

их развитой морфологии. В аналитических языках, например английском, где широко

представлена лексическая многозначность, простой алгоритм, сопоставляющий каждому слову в

тексте наиболее вероятный для данного слова морфологический класс, дает лишь около 90%

точности.

Для синтетических языков морфологический разбор текста включает:

1. Выделение внутри предложений отдельных словоформ.

2. Определение всех вариантов комбинаций основ и аффиксов для каждой словоформы и,

соответственно, вариантов грамматических форм.

3. Устранение грамматической неоднозначности на основе комбинаторного словаря,

содержащего все контексты употребления слов.

Для увеличения точности разбора используются два типа алгоритмов: вероятностно-

статистические и основанные на продукционных правилах.

Алгоритмы, основанные на продукционных правилах, используют правила, которые

строятся автоматически на основе некоторого корпуса текстов или создаются лингвистами.

Вероятностно-статистические алгоритмы используют, в основном, два источника

информации.

- Словарь словоформ, в котором каждой словоформе соответствует множество лексико-

грамматических классов, которые могут быть у данной словоформы. Для каждого лексико-

грамматического класса указывается частота его встречаемости относительно других

морфологических классов данной словоформы.

- Информация о встречаемости всех возможных последовательностей морфологических

классов попарно, по тройкам, по четверкам и т.д. с относительной частотой такой пары (тройки,

четверки и т.д.). Эта информация обрабатывается неким статистическим алгоритмом (например,

на основе скрытых цепей Маркова) для нахождения наиболее вероятного лексико-

грамматического класса для каждого слова в предложении.

Оба подхода дают примерно одинаковый результат на уровне 96-98 % точности.

Существует несколько классификаций основных видов алгоритмов морфологического

анализа. По использованию словарей системы МА можно разделить на словарные (со словарем

словоформ или со словарем основ) и бессловарные, а по организации алгоритмов — на методы с

декларативной, процедурной и комбинированной ориентацией.