Обзор основных алгоритмов морфологического анализа

МА со словарем основявляется наиболее распространенным способом анализа. Для его

проведения требуется словарь основ слов и ряд вспомогательных таблиц.

Если слово имеет несколько вариантов основ, то словарь, как правило, содержит все

варианты. Обычно в этом случае один из вариантов основы помечается как основной, а другие

варианты содержат ссылку на него. Это необходимо для дальнейшего семантического анализа,

чтобы устранить различные смысловые трактовки для одного и того же слова. Дополнительные

таблицы содержат, как правило, список возможных вариантов изменяемых частей слов (в русском

языке – окончаний) с соответствующим им значением грамматических признаков.

В общем случае производится поиск всего слова в словаре основ, если слово не найдено, от

него отделяется последняя буква и производится повторный поиск. Так продолжается до тех пор,

пока основа не будет найдена либо пока не останется букв. В случае удачного поиска из словаря

извлекаются варианты частей речи, соответствующих этой основе. Затем производится поиск в

таблице изменяемых частей слова. При этом пропускаются варианты соответствующие частям

речи, к которым данная основа не может относиться. Таким образом, определяются

грамматические признаки разбираемой словоформы.

Малоэффективным представляется МА со словарем словоформ, подразумевающий

наличие словаря, содержащего список все возможных словоформ (например, все варианты

сочетаний падежа и числа для каждого существительного) с соответствующими им

грамматическими признаками. Кроме значительного роста словаря возникает еще одна проблема:

в случае отсутствия словоформы в словаре система не имеет возможности оперировать этим

словом.

Среди словарных систем можно выделить системы с предсказанием. Предсказание

необходимо для анализа слов, отсутствующих в словаре, и основано на выявлении аналогий

анализируемого слова с имеющимися словарем.

Предсказание включает в себя предсказание префиксального образования предсказание по

концовке, взятой из известных словоформ

При предсказании префиксального образования делают попытку найти существующую

словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая

часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с

известной словоформой) не короче N символов (четырех), то слово разбирается по образцу

известной словоформы. Например:

[евро]технологию, [супер]коньками

Для оценки качества предсказания вычисляют точность предсказания – отношение

количества случаев, когда в результатах предсказания при котором был хотя бы один правильный

результат (одновременно лемма, часть речи, род, число и падеж, и т.п.).

Безсловарный МАпроводится без использования словарей основ или начальных форм, а

лишь с использованием таблицы аффиксов, списка слов-исключений и списка служебных

неизменяемых слов (например, союзов, междометий, предлогов). Этот способ используется

достаточно редко.

Существуют три основных метода реализации МА: декларативный, процедурный и

комбинированный. При декларативномметоде в словаре хранятся все возможные словоформы

каждого слова с приписанной им МИ. В этом случае задача МА состоит просто в поиске

словоформы в словаре и переписывании из словаря МИ, поэтому можно считать, что в этом

методе отсутствует как таковой морфологический анализ, а хранится только его результат. Так как

количество различных словоформ у каждого слова довольно велико, декларативный метод требует

больших затрат памяти вычислительной системы, что порождает ряд технических проблем,

заключающихся в больших затратах труда на создание и поддержание словаря, в высокой

избыточности информации. Достоинствами метода является высокая скорость анализа, а также

универсальность по отношению к множеству всех возможных словоформ русского языка.

ПроцедурныйМА выполняет следующие функции: выделяет в текущей словоформе

основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс МИ.

Процедурный метод предполагает предварительную систематизацию морфологических знаний о

ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком такого подхода

является высокая трудоемкость составления словарей совместимости. При этом наличие в русском

языке большого числа слов-исключений не позволяет сколько- нибудь автоматизировать этот

процесс. Для проведения анализа словоформы необходимо наличие словарей «приставка-корень»,

«корень – суффикс - флективный класс», «флективный класс – окончание - МИ».

Существует два подхода к решению задачи процедурными методами.

Первый подход предполагает наличие словаря основ и словаря аффиксов. Для слова

выполняется процедура поиска в словаре основ. При этом ищутся все основы, с которых может

начинаться анализируемое слово. Если очередная основа удовлетворяет этому условию, то из

словаря аффиксов извлекается строка, содержащая все возможные аффиксы для данной основы.

Каждый аффикс из этой строки поочередно присоединяется к основе, и результат сравнивается с

анализируемым словом. В случае их точного совпадения формируется очередная запись в список

результатов поиска: по порядковому номеру аффикса в строке аффиксов определяются

переменные морфологические параметры слова (например, для существительного - число и

падеж), а по словарной информации данной основы - его постоянные параметры (для

существительного — род и одушевленность).

Если в результате такого поиска не найдено ни одного успешного варианта, то проводится

поиск среди исключений. Исключения присутствуют в словаре основ наряду с обычными

основами. И те, и другие имеют в словаре информацию о постоянных морфологических признаках

и о номере строки допустимых аффиксов.

Разница между исключениями и обычными основами состоит в том, что, во-первых, строка

с неизменной частью слова у исключений пустая, и, во-вторых, номер строки аффиксов для

исключений относится не к файлу аффиксов, а к отдельному файлу исключений. Структура этого

файла точно такая же, но в него внесены целые словоформы, а не их окончания. Таким образом,

при поиске среди исключений приходится просматривать все словоформы всех присутствующих в

словаре исключений. Это занимает много времени, поэтому поиск среди исключений проводится

только в том случае, когда не найдено ни одного варианта среди обычных основ. Сам анализ

проводится точно так же. Если некоторая словоформа некоторого исключения точно совпадает с

анализируемым словом, то по номеру словоформы определяются переменные морфологические

параметры слова, а по словарной информации самого исключения — постоянные параметры

слова.

Если после поиска среди исключений все равно не найдено ни одного варианта, то

проверяется наличие у анализируемого слова возвратного суффикса ся, сь, или приставок не, ни.

Если они есть, то они отсекаются от анализируемого слова, и процедура поиска повторяется

сначала. При этом морфологические параметры находимых основ модифицируются специальной

процедурой. В случае, когда все этапы поиска дали отрицательный результат (не найдено ни

одного варианта), пользователю выдается запрос на ввод новой основы в словарь. В случае его

отказа это сделать выполнение морфологического анализа прекращается. Если же новое слово

введено в словарь, то вся процедура поиска повторяется сначала.

Второй подход предполагает наличие словаря начальных форм и МИ, необходимой для

словоизменения (как-то, часть речи, род и т.д.), а также массивов окончаний и программной

реализации правил чередования в основе. Подход состоит в том, что слово последовательно

причисляется к каждой из частей речи. Последовательно выбираются окончания для этой части

речи. В случае, если окончание одной из косвенных форм совпадает с концовкой слова,

совпадающая часть отбрасывается, производятся чередования в основе, если слово соответствует

шаблону чередования, и к полученной основе добавляется окончание леммы. При построении

леммы запоминается промежуточная информация.

Таким образом, все леммы, которые можно построить, вместе с промежуточной

информацией собираются в список. Каждое слово этого списка ищется в словаре лемм.

Результатом лемматизации является список слов, найденных в словаре, для которых

промежуточная информация соответствует грамматической информации из словаря.

Работающая система, в которой реализован процедурный МА, занимает значительно

меньший объем памяти, но при этом увеличивается время поиска МИ за счет разбиения

словоформы на составляющие и применения процедур совместимости. Исходя из этого,

процедурный метод удобнее применять в системах с относительно небольшим количеством

пользователей, в то время как декларативный – в системах с частым обращением к

лингвистическому анализатору. Другим существенным недостатком процедурных методов

является отсутствие универсальности, т.к. существует большое количество слов, которые нельзя

представить в виде суммы неизменной основы и аффикса, например, существительное год,

которое имеет во множественном числе родительного падежа форму лет; местоимение я и т. д.

В системах реальной степени сложности чаще используется комбинированныйвариант

МА. При этом используется как словарь словоформ, так и словарь основ. На первом этапе

проводится поиск по словарю словоформ, как при декларативном методе, и в случае успешного

поиска анализ на этом завершается. В противном случае задействуется словарь основ и

процедурный метод анализа.__