Распознавание и синтез речи

Переключатели клавиатуры

Эти программы связаны с переключением и исправлением клавиатурной раскладки (в том числе, позволяют исправлять текст, введенный не в той клавиатурной раскладке).

SwitchIt – драйвер клавиатуры способный полностью заменить стандартный переключатель, либо сотрудничать с ним.

Punto Switcher – при вводе невозможных в русском или английском языке сочетаний букв (например, Цштвщцы), производится перекодировка и переключение раскладки.

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Главным фактором, ускорившим развитие программ распознавания речи, было совершенствование компьютеров.

Эти программы требуют большой вычислительной мощности и значительных объемов памяти. Чтобы использовать программы распознавания речи с полной отдачей, рекомендуется РС с процессором Pentium MMX/166 или аналогичным и жестким диском не менее 2 Гбайт. Перед его покупкой следует убедиться, что используемая программа распознавания речи поддерживает имеющуюся в РС звуковую карту.

Программы распознавания речи требуют всю эту мощь, поскольку они выполняют сложную работу. Сначала произносимые вами слова захватываются микрофоном и обрабатываются звуковой картой.

Затем программа анализирует звук, чтобы отличить низкочастотные гласные от высокочастотных согласных. После этого результаты сравниваются с фонемами (частями слов), группами фонем и словами, чтобы подобрать наиболее точный эквивалент.

Этот алгоритм должен быть не только аккуратным и быстрым, но пластичным, чтобы учитывать особенности произношения, модуляции голоса, скорость речи. После подбора наиболее точного слова программа анализирует контекст, что предугадать следующее слово. Это позволяет различить слова-омонимы, например, коса (вид прически), коса (береговая отмель), коса (сельскохозяйственный инструмент).

NaturallySpeaking и ViaVoice могут работать сразу после того, как вы прочтете несколько предложений. Чтобы добиться лучших результатов следует, однако, произвести 30-минутную тренировку. Чтобы еще лучше подготовить программу следует прочитать текст или импортировать документы, содержащие наиболее часто употребляемые вами слова.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека. Основным преимуществом голосовых систем является дружелюбность к пользователю — он избавляется от необходимости «продираться» сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). Второй вариант более популярен и прост в разработке: речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.). Второй вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.