Системы оптического распознавания символов. Обучаемая OCR-система FineReader.
Системы автоматизации делопроизводства и документооборота
Распознавание текста производится так называемыми OCR-программами. Это система оптического распознавания символов, или система ввода документов в компьютер, которая требует сканер и не требует клавиатуры для набора текста.
Необходимость использования таких программ обусловлена тем, что текст, который получен после сканирования черно-белого изображения формата А4, представляет собой изображение, имеющее размер около 1000000 байт информации. Распознанный текст занимает около 4000 байт информации и пригоден для обработки текстовым редактором. Кроме того, скорость ручного ввода текста с клавиатуры меньше, чем скорость ввода через сканер.
Первые программы распознавания текстов работали по принципу сравнения распознаваемого символа с набором эталонов. Если в документе встречался текст, набранный другим шрифтом, то начинались проблемы. Современные программы распознавания текстов могут распознавать символы различных шрифтов, включая напечатанные на матричном принтере и даже рукописные. Это программы FineReader, CuneiForm, CorelDrow.
FineReader разработана отечественной фирмой ABBYY и является одним из наиболее распространенных пакетов программ для распознавания русскоязычных текстов.
Возможности FineReader:
· встроенная возможность автоматической настройки на новые шрифты,
· строенная проверка орфографии для быстрого обнаружения неправильно распознанных слов,
· распознавание таблицы с сохранением структуры в распознанном тексте,
· распознавание не только русских, английских и русско-английских текстов, но и немецких и французских текстов, а также текстов на смешанных языках, т.е русско-французские, англо-немецкие тексты и т.п.,
· возможность передачи распознанных документов в программы Word и Excel.
Работа с программой FineReader состоит из следующих этапов:
1. сканировать, считывание изображения с бумажного носителя и представление его в виде графического изображения,
2. сегментировать, изображение разбивается на блоки в зависимости от содержания,
3. распознать, графическое изображение преобразуется в текст, таблицы и картинки,
4. проверить, орфография и неточно распознанные символы,
5. сохранить.