Распознавание и перевод текстов

 

Программы распознавания текста (OCR) предназначены для автоматического сканирования и распознавания текстов на разных языках, в том числе и текстов с использованием двух языков. Процесс обработки документа включает пять этапов: сканирование исходного документа, сегментацию, распознавание, редактирование и проверку результата, запоминание документа. При этом полностью сохраняется оформление документа - расположение текста, таблиц, картинок, цвета. Результаты распознавания могут быть сохранены в файлах различных форматов в соответствии с содержанием документа: текст - в DOC или RTF, таблица в XLS и др. Проблемы при распознавании обычно обусловлены неверными настройками программы или плохим качеством сканируемого документа. Среди программ OCR выделяются схожие но функциональным возможностям программы FineReader фирмы ABBYY Software и CuneiForm фирмы Cognitive. Обе программы обычно передаются пользователю при покупке сканера. Каждая из них имеет ряд версий от простых модификаций до более умелых профессиональных.

Программа FineReader 7.0 характеризуется рядом нововведений: повышена точность распознавания; реализована возможность быстрого размещения документов в сети Интернет с поддержкой форматов HTML и PDF; количество распознаваемых языков увеличено почти до двух сотен (среди них как древние и экзотические языки, так и языки программирования); обеспечена возможность распознавания штрих-кодов, подстрочных индексов, простых химических формул и др. Для работы в сети разработана версия FineReader 6.0 Office, поддерживающая многопроцессорную работу с увеличением скорости распознавания пропорционально количеству используемых процессоров. Входящая в состав версии Office программа для заполнения форм Formulator позволяет за несколько минут заполнить документ любой стандартной формы.

Среди программ перевода текстов наиболее известны семейства программ “Сократ”, PROMT, а также переводчик Magic Gooddy. Основным направлением их использования является перевод технической и деловой документации.

В состав семейства Сократ входят программы: “Сократ Персональный” – переводчик (работает с английским и русским языками) текстовых фрагментов, помещаемых в Буфер Обмена Windows; “Сократ Профессиональный” – четырехъязычный (английский, немецкий, французский и русский языки) переводчик текстовых файлов, позволяющий переводить текст с любого из трех языков на русский и обратно; “Сократ Интернет” – программа для перевода Web–страниц с сохранением форматирования и гиперссылок (по внешнему виду она практически не отличается от обычного браузера). Все версии “Сократа” используют одну и ту же словарную базу (около 150 тыс. слов), при необходимости система позволяет дополнительно подключить один или несколько специализированных словарей. Для программ семейства “Сократ” характерны компактность и хорошее качество перевода.

Среди продуктов семейства PROMT основной переводчик текстов PROMT и программа для перевода страниц Интернет - PROMT Internet. По сравнению с предыдущим продуктом фирмы “Промт” – переводчиком Stylus, программа PROMT отличается удобством работы и изящностью. Для нее характерны возможности совместной работы со многими широко используемыми программами, в том числе, электронными словарями (Lingvo и “Мультлекс”) программами проверки правописания (Orfo) и систем распознавания (FineReader и CuneiForm), программами пакета Microsoft Office и др. PROMT позволяет работать одновременно с несколькими словарями. Базовый универсальный словарь содержит по 200 тыс. слов для каждого из четырех поддерживаемых языков. При подключении к системе нескольких специализированных словарей пользователь имеет возможность выбирать и тематику перевода, что позволяет снизить число “ляпов” во много раз. Для повышения точности перевода пользователь может создать и подключить к системе собственный словарь. В целом PROMT обеспечивает высокое качество перевода текстов как в среде Office, так и в среде Интернета.

Переводчик Magic Gooddy, работающий с английским и русским языками, изначально ориентирован на домашнего пользователя. Он в ряде случаев проигрывает другим программам в качестве перевода, однако его дружелюбный интерфейс обеспечивает удобство и простоту использования. Для перевода фрагмента текста достаточно выделить его и отбуксировать с помощью мыши на физиономию гусенка Gooddy. Кроме того, программа понимает принятые через микрофон команды, а также может прочитать вслух фрагмент текста как на русском, так и на английском языках. В Magic Gooddy встроен ряд словарей по компьютерным технологиям, бытовой технике, программному обеспечению, Интернету, кулинарному искусству, играм.