Сканирование изображений
СУБД Microsoft Access 2000
СУБД Microsoft Access 2000 предоставляет несколько средств создания каждого из основных объектов базы. Эти средства можно классифицировать как:
· ручные (разработка объектов в режиме Конструктора);
· автоматизированные (разработка с помощью программ-мастеров);
· автоматические – средства ускоренной разработки простейших объектов.
Соотношения между этими средствами понятны: ручные средства являются наиболее трудоемкими, но обеспечивают максимальную гибкость; автоматизированные и автоматические средства являются наиболее производительными, но и наименее гибкими
При разработке учебных таблиц и запросов рекомендуется использовать ручные средства – работать в режиме Конструктора. Использование мастеров ускоряет работу, но не способствует освоению понятий и методов.
При разработке учебных форм, отчетов и страниц доступа наоборот лучше пользоваться автоматизированными средствами, предоставляемыми мастерами. Это связано с тем, что для данных объектов большую роль играет внешний вид. Дизайн этих объектов весьма трудоемок, поэтому его лучше поручить программе, а учащемуся сосредоточиться на содержательной части работы.
Разработку макросов и модулей в данном пособии мы не рассматриваем. Эти средства ориентированы на профессиональных разработчиков баз данных, поэтому в рамках общетехнического курса “Информатики” для них недостаточно места.
Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т. д. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму.
Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования:
· в ходе сканирования при помощи устройств оцифровки изображения производится создание электронного образа (изображения) документа;
· процесс распознавания позволяет преобразовать электронное изображение в текстовые данные (с сохранением элементов форматирования оригинала или без них);
· для документов, исполненных на иностранном языке применяют дополнительные средства автоматизированного перевода на другой язык.
Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер
Сканер является внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи.
Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера.
Сканирование через посредство интерфейса TWAIN осуществляется следующим образом. Сначала следует включить сканер. Команда сканирования располагается в приложении в меню Файл. После выбора этой команды открывается диалоговое окно драйвера TWAIN, вид которого зависит от модели сканера. В этом окне задают параметры сканирования: черно-белый или цветной режим, разрешение, коррекция яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования – часть страницы документа.
После настройки всех параметров следует щелкнуть на кнопке Сканировать. Процесс сканирования происходит автоматически, и изображение передается в приложение. Диалоговое окно драйвера TWAIN автоматически не закрывается, так что, например, в многооконных графических редакторах (таких как Adobe PhotoShop) можно сразу провести сканирование нескольких изображений.
Этап распознавания документа состоит в преобразовании электронного изображения в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит “сравнение” элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях.
В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки – на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.
Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader. Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.
Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:
· сканирование документа (кнопка Сканировать);
· сегментация документа (кнопка Сегментировать);
· распознавание документа (кнопка Распознать);
· редактирование и проверка результата (кнопка Проверить);
· сохранение документа (кнопка Сохранить).