Этап 2.
Этап 1.
Символьное представление «печатного текста», принятого в ЭВМ, преобразуется в фонетическое описание.
Преобразование последовательности элементов фонетического алфавита в последовательность управляющих слов (УС)
для непосредственного управления синтезатором. Эти преобразования иллюстрируются схемой, приведённой на рис. 14, б.
На рисунке использованы следующие обозначения:
П1 – программа преобразования орфографического текста в фонетическое описание (ФО);
П2– программа формирования последовательности управляющих слов (УС);
СИНТ– синтезатор;
Библ-1– библиотека правил формирования фонетических описаний (ФО);
Библ-2– библиотека управляющих слов (УС);
ФО –фонетические описания;
УС –управляющие слова;
ЗП –запросы от синтезатора
Гр –громкоговоритель;
А –адреса.
Структура, приведённая на рис. 14, б работает следующим образом:
1. Последовательность слов и словосочетаний (ТЕКСТ) в виде символьного представления передаётся в программу П1. Эта программа реализуется средствами ЦП или специализированными средствами цифровой обработки, встроенными в систему вывода речи.
2. Основой для преобразования текста в фонетическое описание (ФО) служит набор правил, хранимых в Библиотеке 1 (Библ-1). Эти правила определяются фонетическими особенностями языка; они сложны и неоднозначны, содержат большое количество исключений.
Поэтому иногда первый этап конструирования речи выполняется не в процессе создания системы речевого сообщения, а в процессе создания оператором системы речевого вывода.
3. Пользуясь библиотекой правил (Библ-1) или словарём, программа П1 передаёт фонетическое описание (ФО) программе П2 – программе формирования последовательности УС (управляющих слов).
4. Программа П2 чаще всего реализуется МП-средствами системы речевого вывода. Программа П2 последовательно получает коды элементов ФО, по ним формирует адрес (А), находит УС в библиотеке фонетических описаний элементов (Библ-2), соответствующие каждому элементу и направляет их в синтезатор (СИНТ).
5. Каждое следующее УС передаётся в синтезатор по его запросу (ЗП) по окончании интервала звучания, определяемого параметром длительности звучания в предыдущем УС.
6. Новое УС выбирается по адресу следующего фонетического элемента, если воспроизведение предыдущего завершено, или по следующему по порядку адресу, если в предыдущем УС установлен соответствующий флаг (Фл) цепи УС, то есть если воспроизведение фонетического элемента завершено (повтор).
Примечание: В состав управляющего слова (УС) кроме упомянутых выше параметров вводятся также параметры, задающие длительность звучания фонемы и ряд так называемых «флажков»,
выполняющих служебные функции при работе программ П1 и П2.
Речь, сформированная таким образом, отличается сравнительно невысоким качеством, но вполне различима; такая речь звучит неестественно, так как в ней отсутствуют присущие человеческой речи ритм, интонация, изменение громкости и т.п.
Существенным достоинством таких систем является достаточно большой словарь (до 300 слов) и полное время звучания до 200 секунд (почти 3,5 минуты).
3.4 ЛПК - синтезаторы
Линейное предиктивное кодирование (ЛПК - метод) основано на использовании математического аппарата – уравнений преобразования закодированной речи в её спектр исходных частот.
Главный принцип, положенный в основу ЛПК - метода сводится к тому, что поступающие выборки речевых сигналов могут рассматриваться как линейные комбинации прошлых выборок речевого сигнала.
Физически это означает, что характер речевого сигнала сравнительно мало изменяется при произнесении какого-либо одного звука, а изменение характера этого сигнала происходит значительно реже (по отношению к частоте квантования – F кв) при переходе от одного звука к другому. Это отчётливо видно, если речевой сигнал записать на
какой либо носитель, а затем рассмотреть осциллограмму.
Существует большое сходство между ЛПК - методом и методом прямого кодирования-восстановления речевого сигнала. Сходство
заключается в том, что в основе обоих методов используется живая человеческая речь. Но в ЛПК - синтезаторах в память записываются коды слов. Затем на основе этих кодов производится анализ кодированной речи с целью образовать так называемые кадры ЛПК - данных, которые содержат информацию о высоте основного тона, о формантных частотах, об амплитуде и интонации речи и т.п. – всего около 12 параметров речи, которые формируются в кадры, управляющие собственно синтезатором.
На рис. 15 приведена структура модели системы синтеза речи с использованием ЛПК - метода (модель несколько упрощена).
В модель системы входят:
- Микрофон (М) для ввода в модель
речевых фрагментов и слов с помощью живой человеческой речи.
1. Аналого-цифровой преобразователь. 2. Цифровой анализатор речи (ЦАР).
3. Блок образования линейных
предикторных коэффициентов (БЛПК).
4. Постоянное запоминающее устройство.
5. Блок линейного предиктивного
декодирования (ЛПДК).
6. Собственно цифровой синтезатор
речи (ЦСР).
7. Цифроаналоговый
преобразователь (ЦАП).
8. Память описаний (ПОп).
- Громкоговоритель (Д).
Следует заметить, что блоки 2 –5 модели реализуются средствами компьютера и являются его программно-аппаратными частями.
Рассмотрим функции отдельных блоков модели и их взаимодействие.
Цифровой анализатор речи (ЦАР) –программа, которая анализирует выборки речевых сигналов, поступающих с выхода АЦП, и образует данные о спектральном составе речи, формантных характеристиках речи, данные об амплитуде и интонации речи – всего 12 параметров.
Блок образования линейных предикторных коэффициентов (БЛПК) –программный блок вычисления предикторных коэффициентов,
описывающих речевой фрагмент (слово, фразу). Этот блок, по сути, является устройством краткосрочного прогнозирования, то есть своеобразным «предсказателем» последующего речевого сигнала. Выходные данные этого блока управляют параметрами и определяют числовые коэффициенты, которые используются для линейной предиктивной генерации речи.
Постоянное запоминающее устройство (ПЗУ) хранит данные из блока БЛПК. Эти данные в дальнейшем служат для регенерации речи, формируемой системой ЛПК - синтезатора.
После того, как на этапе настройки синтезатора параметры записаны в ПЗУ системы, можно приступать к синтезу речи. Процесс синтеза речи начинается в блоке ЛПКД.
Блок линейного предиктивного декодированияиз данных, записанных в ПЗУ, формирует управляющие кадры,которые подаютсяна блок ЦСР – цифровой синтезатор речи, который принимает управляющие кадры. Каждая ячейка управляющего кадра (УК) представляет собой код – элемент двоичной информации, который передаётся в синтезатор и управляет синтезом речи.
Ячейки управляющего кадра (рис. 16) имеют следующий функциональный смысл:
Ячейка ЭН(энергия) – всегда присутствует в кадре. Её значение – либо 1111, либо 0000. Эта ячейка кадра служит для непрерывного управления амплитудой произносимой речи.
Ячейка R(повторение кадра) – если R=1, то повтора кадра нет, в противном случае кадр повторяется (длинный звук).
Ячейка ВОТ(высота основного тона): при ВОТ=0 – глухой звук, при ВОТ=1 – звонкий звук.
К1 – К10 – (3-5 бит), управляющие биты, задающие предикторные коэффициенты, вычисленные на этапе цифрового анализа речи (ЦАР) и образования предикторных коэффициентов (БЛПК – ПЗУ – ЛПДК).
Система ЛПК - синтеза работает в двух режимах.
РЕЖИМ 1. Режим подготовки системы к генерации речи (рис. 15).
В этом режиме, при использовании реальной человеческой речи в памяти описаний необходимо создать массив управляющих кадров для генерации сегмента речи. В этом случае работают блоки: АЦП, ЦАР, БЛПК, ПЗУ, ЛПДК, ПОп. Оператор через микрофон передаёт в систему речевые сегменты (фразы, слова),
которые оцифровываются и поступают в БЛПК. Этот блок образует линейные предикторные коэффициенты, которые записываются в ПЗУ, а затем передаются в блок линейного предиктивного декодирования (ЛПДК). Блок формирует из этих данных управляющие кадры (УК). Управляющим кадрам, соответствующим одному фрагменту речи, присваивается идентификатор сообщения (ИС). Управляющие кадры со своим идентификатором записываются в память описаний. Аналогичные операции совершаются со всеми речевыми фрагментами, которые вводятся в синтезатор.
РЕЖИМ 2. Этот режим является основным режимом – режимом собственно синтеза речи. Он реализуется следующим образом.
Идентификатор (имя) сообщения из ЭВМ верхнего уровня (центральной ЭВМ) передаётся в узел управления выборкой и синхронизации (УВ и С). Этот узел осуществляет поиск описания выводимого речевого сообщения в памяти описания (ПОп). Описание речевого сообщения представляет собой последовательность управляющих кадров, поступающих в синтезатор каждые 20 мс, в течение которых предикторные коэффициенты остаются постоянными. Структурная схема синтезатора описанного типа приведена на рис. 16.
В структуре использованы следующие обозначения:
ГВОТ –генератор высоты основного тона;
ГШ –генератор шума;
РгКд –регистр управляющего кадра (УК);
Эн –ячейка«энергия»регистра кадра (РгКд);
R – ячейка «повторить кадр регистра кадра (РгКд);
ВОТ – ячейка «высота основного тона регистра кадра (РгКд);
К1 – К10 –ячейки управляющих битов регистра кадра (РгКд);
ПОп –память описаний;
УВиС –устройствоуправление выборкой и синхронизацией
ИС –идентификатор сообщения;
ЦМФ –цифровой многозвенный фильтр;
Ф1 – Ф10 –элементы цифрового многозвенного фильтра;
П –электронный переключатель;
ЦАП –цифро-аналоговый преобразователь;
У –усилитель;
Д –динамик;
Работа синтезатора кратко заключается в следующем.
Синтезатор подготовлен к работе, если в режиме 1 в память описаний введена информация в виде речевых сообщений. Из ЭВМ верхнего уровня в устройство УВиС (на рис. 16 не приведено) поступает идентификатор сообщения (ИС). Устройство УВиС осуществляет в памяти описаний (ПОп) поиск начального кадра из числа кадров, которые управляют синтезатором при выводе сообщения, заданного ЭВМ.
Управляющие сообщения последовательно записываются в регистр кадров и управляют всеми компонентами синтезатора, которые подключены к регистру управляющего кадра. Когда последний управляющий кадр из последовательности кадров реализует свои функции, синтез прекращается.
При формировании речи по образцам (компилятивными методами) количество возможных речевых сообщений ограничено теми сообщениями, описание которых составлены заранее и хранятся непосредственно в памяти описаний или составляются в процессе вывода путём слияния нескольких элементарных сообщений, также хранящихся в памяти.
Составление описаний более сложных сообщений выполняется с использованием программных средств. Например, сообщение «Температура воздуха в Москве в ХХ часов была YY градусов» может быть составлено из 5 элементарных сообщений:
1. Температура воздуха в Москве