Системы оптического распознавания символов. Обучаемая OCR-система FineReader.

Системы автоматизации делопроизводства и документооборота

 

Распознавание текста производится так называемыми OCR-программами. Это система оптического распознавания символов, или система ввода документов в компьютер, которая требует сканер и не требует клавиатуры для набора текста.

Необходимость использования таких программ обусловлена тем, что текст, который получен после сканирования черно-белого изображения формата А4, представляет собой изображение, имеющее размер около 1000000 байт информации. Распознанный текст занимает около 4000 байт информации и пригоден для обработки текстовым редактором. Кроме того, скорость ручного ввода текста с клавиатуры меньше, чем скорость ввода через сканер.

Первые программы распознавания текстов работали по принципу сравнения распознаваемого символа с набором эталонов. Если в документе встречался текст, набранный другим шрифтом, то начинались проблемы. Современные программы распознавания текстов могут распознавать символы различных шрифтов, включая напечатанные на матричном принтере и даже рукописные. Это программы FineReader, CuneiForm, CorelDrow.

FineReader разработана отечественной фирмой ABBYY и является одним из наиболее распространенных пакетов программ для распознавания русскоязычных текстов.

Возможности FineReader:

· встроенная возможность автоматической настройки на новые шрифты,

· строенная проверка орфографии для быстрого обнаружения неправильно распознанных слов,

· распознавание таблицы с сохранением структуры в распознанном тексте,

· распознавание не только русских, английских и русско-английских текстов, но и немецких и французских текстов, а также текстов на смешанных языках, т.е русско-французские, англо-немецкие тексты и т.п.,

· возможность передачи распознанных документов в программы Word и Excel.

Работа с программой FineReader состоит из следующих этапов:

1. сканировать, считывание изображения с бумажного носителя и представление его в виде графического изображения,

2. сегментировать, изображение разбивается на блоки в зависимости от содержания,

3. распознать, графическое изображение преобразуется в текст, таблицы и картинки,

4. проверить, орфография и неточно распознанные символы,

5. сохранить.