ОСНОВЫ ПАРАМЕТРИЧЕСКОГО КОДИРОВАНИЯ РЕЧИ
При кодировании формы сигнала практически не учитываются свойства артикуляционного аппарата человека и особенности его слухового восприятия. В то же время именно здесь заключен значительный ресурс избыточности речевого сигнала (РС). На использовании этого ресурса избыточности основывается широко распространенное параметрическое представление речевого сигнала.Параметрическое представление РС основывается в первую очередь на данных о механизмах речеобразования, т.е. используется своего рода модель голосового тракта, что привело к разработке систем типа анализ-синтез, получившим название вокодерных систем или вокодеров (сокращение от voice coder).
Можно сказать, что когда человек говорит, он производит спектрально-временную модуляцию широкополосного сигнала, генерируемого голосовыми складками и представляющего своего рода несущую. Полезная информация в этой несущей есть только в интонации (изменении частоты основного тона) и в смене вида спектра с тонального на шумовой и наоборот.
В русском языке 42 фонемы: 6 гласных звуков, остальные - согласные. Чтобы закодировать их номера нужно 6 бит. Человек произносит в секунду около 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы управления передаются со скоростью
10[log242] = 60 БИТ/c
Линейная модель речеобразования представляет речь как систему, состоящую из генератора сигнала возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровой функции), которая им возбуждается.
Описание первого вокодера было опубликовано Г. Дадли более 60 лет назад. Восстановленная речь была достаточно разборчивой, но звучала ненатурально.
Вокодеры можно разделить на два класса:
· речеэлементные;
· параметрические.
В первых при передаче распознаются произнесенные элементы речи (например, фонемы) и передаются только их номера. На приеме эти элементы создаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных вокодеров - линии командной связи, речевое управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит скорее автоматическое распознавание слуховых образов нежели определение параметров речи.
В параметрических вокодерах из речевого сигнала выделяют два типа параметров и по этим параметрам на приеме синтезируют речь:
- параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию);
- параметры, характеризующие источник речевых колебаний (генераторную функцию) - частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.
По принципу определения параметров фильтровой функции речи различают вокодеры:
- полосные (канальные);
- формантные;
- ортогональные;
- липредеры (с линейным предсказанием речи).
В полосных вокодерах спектр речи делится на 7 - 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с
частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде.
В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина.
В ортогональных вокодерах огибающая мгновенного спектра раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону. Распространение получили гармонические вокодеры, использующие разложение в ряд Фурье.