Новые информационные технологии (3)
Новые информационные технологии
Лекция № 2. Основные классы естественно-языковых систем. Классификация естественно-языковых систем
1.1. Основные классы естественно-языковых систем
1.1.1. Функциональные компоненты естественно-языковых систем1.1.2. Сравнительная характеристика основных классов ЕЯ-систем1.1.2.1. Интеллектуальные вопросно-ответные системы1.1.2.1.1. Информационно-поисковые системы
1.1.2.1.2. Системы общения с базами данных
1.1.2.1.3. Экспертные системы
1.1.2.1.4. Диалоговые системы решения задач
1.1.2.1.5. Интеллектуальные хранилища и цифровые библиотеки
1.1.2.2.Системы распознавания речи
1.1.2.2.1. Системы распознавания изолированно произносимых команд
1.1.2.2.2. Системы распознавания ключевых слов в потоке слитной речи
1.1.2.2.3. Системы распознавания слитной речи
1.1.2.2.4. Подход «анализ-через-синтез»
1.1.2.2.5. Системы чтения по губам
1.1.2.3.Системы обработки связных текстов
1.1.2.3.1. Системы реферирования текстов
1.1.2.3.2. Системы сравнения и классификации текстов
1.1.2.3.3. Системы кластеризации текстов
1.1.2.4.Системы синтеза
1.1.2.4.1. Системы синтеза речи
1.1.2.4.2. Системы клонирования голоса
1.1.2.4.3. Системы синтеза видеоряда по тексту1.1.2.5.Системы машинного перевода. Системы понимания речи (текстов)
1.1.2.5.1. Системы фразового перевода1.1.2.5.2. Системы контекстного перевода1.1.2.5.3. Системы понимания речи (текстов)1.1.2.6.Онтологии и тезаурусы
1.1.2.7.Речевые и текстовые базы
1.1.2.8.Компоненты интеллектуальных систем
1.1.3. Сравнительная характеристика естественно-языковых систем Современное развитие Сети и микроэлектроники, в первую очередь – компьютерной техники и мобильной телефонии, привело к расцвету искусственно-интеллектуальных приложений, в том числе, на основе информационных технологий, таких как автоматическое распознавание речи, автоматический анализ текстов, машинный перевод, синтез речи. Поскольку общение с ЭВМ так или иначе происходит с помощью того или иного подмножества естественного языка, лингвистика оказывается вовлеченной во все работы, связанные с разработкой этих приложений. Лингвистический процессор как структурированное естественным образом множество алгоритмов и баз данных для переработки языковой информации оказывается включенным во все процессы обработки языковой информации в человеко-машинных интерфейсах. 2. Основные классы естественно-языковых систем2.1. Основные классы естественно-языковых систем2.1.1. Основные классы естественно-языковых систем2.1.2. Основные классы систем общения с ЭВМ, включающие в свой состав ЕЯ-системы2.2. Функциональные компоненты естественно-языковых систем
2.3. Сравнительная характеристика основных классов естественно-языковых систем
(1) Наряду с реальным миром, в котором мы живем, возник новый – виртуальный – мир компьютеров и Инртернет. Компьютеры вошли в жизнь человека, а потому естественно его стремление (2) преодолеть языковой барьер в общении человека с машиной, разделяющий два разных мира, выразить себя в алгоритмических устройствах. Язык, человек, реальность неразрывно связаны между собой, поэтому (3) обучение компьютера естественному языку (ЕЯ) – задача естественная, но чрезвычайно сложная, связанная с глубоким проникновением в законы мышления и языка.Попытки формализовать интеллектуальную деятельность человека привели к постановке фундаментальной лингвистической задачи, состоящей в (4) моделировании его языкового поведения, т.е. в построении функциональной модели естественного языка и выяснении условий ее функционирования. (5) Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей. (6) Первому виду языковой деятельности соответствует синтез ЕЯ текстов, второму – понимание ЕЯ текстов.В конце 60-х годов (7) в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название «обработка естественного языка» (Natural Language Processing). (8) Задачей этого направления является исследование методов и разработка систем, обеспечивающих реализацию процесса общения с компьютерными системами на естественном языке (систем ЕЯ общения или ЕЯ-систем). Следует отметить, что (10) проблематика коммуникативного взаимодействия, и в частности ЕЯ общения, находится на стыке многих наук: лингвистики, психологии, нейрофизиологии, логики и философии. Однако все (11) они исследуют лишь отдельные аспекты процесса общения. (12) Научное направление «Искусственный интеллект», как прикладная дисциплина, и в рамках этого направления нейроинформатика, моделирует все или, по крайней мере, основные аспекты ЕЯ общения.(9) Сложность создания средств ЕЯ общения, предназначенных для общения пользователей с ЭВМ, обусловлена в значительной степени отсутствием единой теории языкового общения, охватывающей все аспекты взаимодействия коммуникантов. Поэтому при разработке средств ЕЯ общения на процесс взаимодействия часто налагаются различные интуитивные ограничения, последствия которых не до конца осознаются разработчиками. Эти ограничения приводят к тому, что многие человеко-машинные системы, на разработку которых тратятся огромные средства, не удовлетворяют требованиям конечных пользователей. 2.1.1. Основные классы естественно-языковых системЕстественно-языковые системы используются для поиска информации, распознавания и синтеза речи, голосового управления, и обработки данных. (13) В данном направлении выделяются следующие категории информационных продуктов:- средства, обеспечивающие ЕЯ интерфейс к базам данных;- средства ЕЯ поиска в текстах и обработки текстовой информации;- средства распознавания речи;- средства голосового ввода, управления и сбора данных;- средства понимания речи и текстов;- средства синтеза речи и текстов;- компоненты искусственно-интеллектуальных систем;- онтологии и тезаурусы;- речевые базы и базы текстов.(14) Программные продукты первой категории преобразуют ЕЯ запросы пользователя в запросы к базам данных. (15) Средства ЕЯ поиска в текстах осуществляют по запросам пользователей поиск и фильтрацию текстовой информации. В отличие от продуктов предыдущей группы, где поиск осуществляется в базах данных, имеющих четкую и заранее известную структуру, средства данной категории осуществляют поиск в неструктурированных текстах, оформленных в соответствии с правилами грамматики того или иного естественного языка. Поиск осуществляется в распределенных (таких как Сеть), а также специализированных хранилищах, в том числе, в цифровых библиотеках. (16) Средства для распознавания речи распознают голосовую информацию и преобразуют ее в последовательность символов. Они ориентированы на работу со словарями объемом от 10000 до 150000 слов. В отличие от этого, (17) средства голосового ввода ориентированы на работу со словарем до 1000 слов и существенно ограничены в возможностях распознавания. Программные средства этого типа предназначены для ввода голосовых команд, управляющих работой некоторой системы, например, программы сбора данных в тех случаях, когда у пользователя заняты руки. (18) Средства понимания речи и текста восстанавливают смысловую структуру текста, или речевого сообщения его содержащего. (19) Средства синтеза текста и речи осуществляют формирование корректного текста по его смысловой структуре, и синтез речи по тексту. (20) Компоненты ЕЯ обработки предназначены для использования в искусственно-интеллектуальных приложениях, в которые необходимо добавить возможности распознавания и синтеза речи, а также – анализа текстов. Помимо перечисленных выше, в качестве компонент ЕЯ обработки могут использоваться (19) системы клонирования голоса. Системы клонирования голоса позволяют изменить окраску и другие просодические характеристики голоса говорящего в различных целях (сокрытия личности говорящего, для применения в играх и системах моделирования личности для имитации голоса известного человека, и т.д.).Помимо собственно ЕЯ-систем и их компонент имеются также (21) средства лингвистической и речевой поддержки этих систем. К ним относятся онтологии и тезаурусы, которые используются в качестве источников знаний верхних уровней в системах распознавания речи и анализа текстов. (22) Речевые базы и базы текстов служат для обучения систем распознавания речи и анализа текстов, соответственно. 2.1.2. Основные классы систем общения с ЭВМ, включающие в свой состав ЕЯ-системыВ зависимости от назначения прикладных систем, в состав которых входят конкретные реализации ЕЯ-систем, задачи, решаемые отдельными функциональными компонентами (как по постановке, так и по методам решения), могут в значительной степени варьироваться. Исходя из этого, а также с учетом истории развития ЕЯ-систем, различают следующие (23) основные классы систем общения с ЭВМ, включающие в свой состав ЕЯ-системы:- интеллектуальные вопросно-ответные системы, в том числе: информационно-поисковые системы; - системы общения с базами данных; - диалоговые системы решения задач; - интеллектуальные хранилища и цифровые библиотеки;- системы обработки связных текстов (речи), в том числе: - системы реферирования ЕЯ информации; - системы сравнения (классификации) ЕЯ информации; - системы кластеризаци ЕЯ информации;- - системы распознавания речи, в том числе: - средства голосового ввода, управления; - системы распознавания слитной речи;- системы синтеза, в том числе: - системы синтеза речи; - системы клонирования голоса; - системы синтеза текста; - системы синтеза видеоряда по тексту;- системы понимания речи, текста;- системы машинного перевода;- интегральные роботы. (24) Интеллектуальность приложений на основе ЕЯ-систем определяется функциональными возможностями включенных в них ЕЯ-систем, и в первую очередь, использованием верхних уровней представления лингвистической информации – семантики и прагматики Исторически (26) ЕЯ-системы происходят от информационно-поисковых систем, с одной стороны, и систем машинного перевода – с другой. Поэтому на начальном этапе ЕЯ-системы представляли собой макеты информационно-поисковых систем, демонстрирующие принципиальную возможность ввода данных (фактов) и обработки запросов на естественном языке. Такие системы часто (25) назывались интеллектуальными вопросно-ответными системами. Название можно, по-видимому, объяснить стремлением их разработчиков подчеркнуть, что в отличие от обычных информационно-поисковых систем и систем машинного перевода того времени в данных системах широко используются концепции, выработанные в исследованиях по искусственному интеллекту.Основное внимание при разработке интеллектуальных вопросно-ответных систем уделялось не столько возможностям их практического использования в реальных задачах, сколько развитию моделей и методов, позволяющих (27) осуществлять перевод ЕЯ высказываний, относящихся к узким и заранее фиксированным предметным областям, в формальное представление, а также обратный перевод. Накопленный опыт разработки интеллектуальных вопросно-ответных систем позволил, с одной стороны, углубить понимание процесса ЕЯ общения и, следовательно, поставить новые проблемы (в том числе и специфичные для общения в различных классах проблемных областей), требующие дальнейшей проработки, а с другой – оценить перспективы практического применения ЕЯ-систем.Первые предпосылки для практического использования ЕЯ-систем создало появление баз данных (БД). В связи с этим возникла проблема (29) обеспечения доступа к информации, хранящейся в БД, широкому классу неподготовленных пользователей, к которым относят специалистов в той или иной предметной области, как правило, не обладающих знаниями о логической структуре БД, о системе представления информации в БД и не умеющих пользоваться формализованными языками запросов. Для решения этой проблемы стали создаваться (28) системы общения с базами данных, основная задача которых (в простейшем случае) заключается в (30) выполнении перевода запросов неподготовленных конечных пользователей с ЕЯ на формализованные языки запросов к БД.(31) Диалоговые системы решения задач в отличие от систем общения с БД берут на себя не только функции ЕЯ доступа к БД, но и (32) функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач (например, планирование путешествий, боевых операций, составление контрактов и т. п.). В этом случае разбиение задач на подзадачи и распределение ролей между участниками, т. е. определение, кто из участников (пользователь или система) решает ту, или иную подзадачу, осуществляется не пользователем (как в случае применения систем общения с БД), а диалоговой системой.Решение подзадач, порученных системе, может осуществляться как на основе использования собственных знаний и механизмов вывода, так и в результате обращения к прикладным программам и пакетам, не входящим в состав ЕЯ-системы. (33) Основным направлением практического использования ЕЯ-систем данного класса является реализация ЕЯ общения с экспертными системами. Развитием всех перечисленных классов ЕЯ-систем можно считать (34) интеллектуальные хранилища и цифровые библиотеки. Дело в том, что сами хранилища становятся все более интеллектуальными, и снабжаются (35) специальными средствами адаптации к пользователю, а также (36) аналитическими средствами для увеличения возможностей пользователя, например, автоматического реферирования текста, автоматического сравнения и классификации текстов. Последнее очень важно в связи с возрастанием объемов хранимой в цифровом виде текстовой информации и уменьшением ресурсов, направленных на упорядочение хранимой информации. В связи с этим, автоматическая классификация поступившего в библиотеку нового текста, снабжение выходных данных, относящихся к этому тексту, автоматически сформированным рефератом, являются очень полезными опциями интеллектуального хранилища.Возникновение (37) систем обработки связных текстов, обусловлено (38) возрастанием объема хранимой в ЭВМ текстовой информации (газетные статьи, информационные сообщения, патенты и т. п.) и (39) необходимостью извлечения из нее разнообразных сведений (например, о структуре некоторых объектов, о действующих лицах некоторых событий, о мотивах их поступков и т. д.).В системах (40) контекстного машинного перевода, в отличие от систем фразового перевода, (41) необходимо понимание смысла всего текста в целом (в отличие от анализа семантики отдельного предложения в системах фразового перевода). Поэтому, (42) системы контекстного перевода используют в качестве подсистем системы понимания и синтеза текстов и синтезируют текст на выходном языке на основе смысловой схемы, полученной в результате анализа текста на входном языке.Наконец, (43) интегральные роботы (44) включают в себя средства ЕЯ общения (в том числе – диалога), но также (45) содержат подсистемы распознавания образов, навигации и управления движением. Несмотря на то, что средства ЕЯ общения современных интегральных роботов не очень интеллектуальны, чаще всего это средства голосового управления и простого воспроизведения нескольких заранее подготовленных фраз, они ближе всего подходят в ряду человеко-машинных систем к человеку, так как наделены возможностью интегрального использования различных сенсорных и эффекторных систем. А потому, по необходимости они должны (46) использовать модель мира (семантические представления), что неявно предполагалось при рассмотрении систем понимания речи и текстов, и систем контекстного перевода.Каждый из классов ЕЯ-систем обладает специфическими особенностями, которые хорошо заметны при рассмотрении характера задач, решаемых основными (47) функциональными компонентами этих систем. 2.2. Функциональные компоненты естественно-языковых системДля того чтобы имитировать интеллектуальное общение, ЕЯ-система должна реализовать некоторые обязательные функции. (48) К этим функциям относятся:- (49) ведение диалога (прагматика постановки задачи) – определение его структуры и ранга роли, которую система и пользователь выполняют на текущем шаге диалога;- (50) модель мира (модель предметной области) – семантика постановки задачи - внутреннее представление знаний о мире (предметной области);- (51) понимание – преобразование поступающих от пользователя высказываний на естественном языке в высказывания на языке внутреннего представления – модели предметной области;- (52) обработка высказываний – формирование или определение заданий на решение задач на данном шаге диалога;- (53) генерация высказываний – формирование выходных высказываний на ЕЯ.(54) Приведенные функции имеют обобщенный характер. Поэтому необходимо подчеркнуть, что при реализации конкретных ЕЯ-систем суть этих функций может в значительной степени варьироваться. В соответствии с выделенными функциями обобщенная схема ЕЯ-системы (рис.2.2) может быть представлена в виде четырех компонентов: диалогового, который определяет прагматику – решаемую задачу и способ ее решения; модели мира, которая определяет семантику предметной области; компонента понимания высказываний; и компонента генерации высказываний.Рис. 2.1. Обобщенная схема ЕЯ-системы (55) Необходимо помнить, что как в направлении анализа ЕЯ информации, так и в направлении ее синтеза, процессы обработки этой информации проходят последовательно известные уровни представления лингвистической информации. Их 4 (см. Рис. 2 3.): это акустико-фонетический, морфологический, лексический, синтаксический, а также экстралингвистические семантический и прагматический уровни представления. Кроме того, параллельно и независимо в некоторых случаях используется просодическая информациия. 2.3. Сравнительная характеристика основных классов естественно-языковых системПриведенная выше классификация ЕЯ-систем охватывает лишь функционально полные системы, т. е. такие, в которых представлены все основные функциональные компоненты. Однако помимо функционально полных систем ведется интенсивная разработка систем, которые можно назвать фрагментарными. Цель их создания – исследование или реализация новых методов решения достаточно узких задач (например, таких, как анализ, интерпретация, определение целей пользователя и т. п.).Благодаря модульности структуры ЕЯ-систем и, как правило, универсальному (т. е. не зависящему от специфики прикладных областей) характеру языка внутреннего представления, фрагментарные системы могут успешно использоваться в качестве отдельных функциональных блоков, встраиваемых в функционально полные ЕЯ-системы. (56) Рассмотрим основные отличительные характеристики каждого класса ЕЯ-систем на примере существующих систем.Благодаря широкому развитию систем распознавания речи на входе и на выходе представленных выше систем может быть, а может и не быть, реализован ввод/вывод информации в голосовой форме. - Интеллектуальные вопросно-ответные системы, в том числе: - Информационно-поисковые системы
- Системы общения с базами данных - Экспертные системы - Диалоговые системы решения задач - Интеллектуальные хранилища и цифровые библиотеки - Системы распознавания речи, в том числе: - Системы распознавания изолированно произносимых команд
- Системы распознавания ключевых слов в потоке слитной речи
- Системы распознавания слитной речи - Подход «анализ-через-синтез»- Системы чтения по губам - Системы обработки связных текстов, в том числе: - Системы реферирования ЕЯ-информации
- Системы сравнения и классификации ЕЯ-нформации - Системы кластеризаци ЕЯ-информации
- Системы синтеза, в том числе: - Системы синтеза речи - Системы синтеза текстов
- Системы клонирования голоса - Системы синтеза видеоряда по тексту - Системы машинного перевода. - Системы понимания речи (текстов) - Речевые и текстовые базы - Онтологии и тезаурусы