Основы работы с программой FineReader
ABBYY FineReader позволяет ввести документ одним нажатием на кнопку Scan&Read, не вдаваясь в подробности работы программы. Распознанный текст можно передать в текстовый редактор или электронную таблицу, сохранить в форматах RTF, DOC, Word XML (при сохранении в Microsoft Office 2003), PDF и HTML с полным сохранением оформления документа или передать в базу данных.
Программа работает на основе системы оптического распознавания символов (Optical Character Recognition – OCR) предназначеной для автоматического ввода печатных документов в компьютер.
ABBYY FineReader – омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы ABBYY FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».
Процесс ввода документа в компьютер можно подразделить на два этапа:
1 Сканирование. На первом этапе сканер играет роль «глаза» Вашего компьютера: «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.
2 Распознавание. Обработка изображения OCR-системой.
Остановимся на втором шаге более подробно. Обработка изображения системой ABBYY FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.
Как уже упоминалось, распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания».
- целостность – объект описывается как целое с помощью значимых элементов и отношений между ними;
- целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез;
- адаптивность – способность OCR-системы к самообучению.
В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.
В результате работы в окне ABBYY FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.
Сканирование.
ABBYY FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:
- через интерфейс ABBYY FineReader: в этом случае для настройки опций сканирования используется диалог программы ABBYY FineReader «Настройки сканера»;
- через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.
Особенности каждого из режимов.
В режиме «Использовать интерфейс TWAIN-драйвера сканера», как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. Диалог TWAIN-драйвера у каждого сканера выглядит по-своему, в большинстве случаев все надписи даются на английском языке. Вид этого окна и смысл опций описан в документации, прилагаемой к сканеру. В режиме. «Использовать интерфейс ABBYY FineReader» доступны такие опции, как возможность сканирования в цикле на сканерах без автоподатчика, сохранение опций сканирования в отдельный файл набора опций (*.fbt) и возможность использования этих опций в других пакетах.
Вы можете легко переключаться между этими режимами: на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции) установите переключатель в одно из положений: Использовать интерфейс TWAIN-драйвера сканера или Использовать интерфейс ABBYY FineReader.
Замечания:
- для некоторых моделей сканеров опция Использовать интерфейс ABBYY FineReader может быть по умолчанию отключена (недоступна);
- чтобы в режиме Использовать интерфейс ABBYY FineReader показывался диалог Настройки сканера, на закладке Сканировать/Открыть (Сервис>Опции) отметьте пункт «Запрашивать опции» перед началом сканирования.
Важно! Для того чтобы правильно подключить сканер, обратитесь к документации, прилагаемой к сканеру. При установке не забудьте установить необходимое программное обеспечение, поставляемое вместе со сканером (драйвер TWAIN и/или сканирующую программу).
Чтобы запустить сканирование: Нажмите кнопку «Сканировать» или в меню «Файл» выберите пункт «Сканировать изображение». Спустя некоторое время в главном окне программы ABBYY FineReader появится окно «Изображение» с «фотографией» отсканированной страницы.
Если вы хотите отсканировать несколько страниц, то на закладке «Сканировать/Открыть» (Сервис>Опции) отметьте пункт «Сканировать несколько страниц».
В случае если сканирование не началось сразу, показывается один из следующих диалогов:
- встроенный TWAIN-диалог сканера. Установите параметры сканирования и нажмите кнопку Scan (Final и так далее, название кнопок зависит от конкретной модели сканера);
- диалог «Настройки сканера». Установите параметры сканирования и нажмите кнопку Scan (Final и так далее, название кнопок зависит от конкретной модели сканера).
ABBYY FineReader отсканирует и распознает изображения. В главном окне программы появятся окно «Изображение» с «фотографией» отсканированной страницы и окно «Текст» с результатом распознавания. Распознанный текст вы можете передать во внешние приложения или сохранить в одном из поддерживаемых форматов.
Установка параметров сканирования.
Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
Основными параметрами сканирования являются:
- тип изображения – серый (256 градаций), черно-белый или цветной. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Черно-белый тип изображения обеспечивает более высокую скорость сканирования, но при этом теряется часть информации о буквах, что может привести к ухудшению качества распознавания документов среднего и низкого качества печати. Если вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цветные буквы и цветной фон) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.
- разрешение – используйте 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).
- яркость – в большинстве случаев подходит среднее значение яркости порядка 50%. Для сканирования некоторых документах в черно-белом режиме может понадобиться дополнительная настройка яркости.
Замечание. Сканирование с разрешением 400-600 dpi вместо 300 dpi или сканирование в сером или в цвете может занять существенно больше времени, чем сканирование в черно-белом режиме. На некоторых моделях сканеров сканирование с разрешением 600 dpi занимает в 4 раза больше времени, чем сканирование с разрешением 300 dpi.
При сканировании через TWAIN с использованием интерфейса ABBYY FineReader: на закладке Сканировать/Открыть в диалоге Опции (меню Сервис/Опции) щелкните по кнопке «Настройки сканера» и в открывшемся диалоге Настройки сканера установите нужные опции.
При сканировании через TWAIN с использованием интерфейса TWAIN-драйвера сканера для установки параметров сканирования используется диалог сканера, который открывается автоматически при нажатии на кнопку «Сканировать».