Сканирование изображений

СУБД Microsoft Access 2000

 

СУБД Microsoft Access 2000 предоставляет несколько средств создания каждого из основных объектов базы. Эти средства можно классифицировать как:

· ручные (разработка объектов в режиме Конструктора);

· автоматизированные (разработка с помощью программ-мастеров);

· автоматические – средства ускоренной разработки простейших объектов.

Соотношения между этими средствами понятны: ручные средства являются наиболее трудоемкими, но обеспечивают максимальную гибкость; автоматизированные и автоматические средства являются наиболее производительными, но и наименее гибкими

При разработке учебных таблиц и запросов рекомендуется использовать ручные средства – работать в режиме Конструктора. Использование мастеров ускоряет работу, но не способствует освоению понятий и методов.

При разработке учебных форм, отчетов и страниц доступа наоборот лучше пользоваться автоматизированными средствами, предоставляемыми мастерами. Это связано с тем, что для данных объектов большую роль играет внешний вид. Дизайн этих объектов весьма трудоемок, поэтому его лучше поручить программе, а учащемуся сосредоточиться на содержательной части работы.

Разработку макросов и модулей в данном пособии мы не рассматриваем. Эти средства ориентированы на профессиональных разработчиков баз данных, поэтому в рамках общетехнического курса “Информатики” для них недостаточно места.

 

 

Компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, нам часто приходится иметь дело с бумажными изданиями и документами: журналами, книгами, письмами, служебными записками и т. д. Чтобы в работе с информацией такого рода тоже можно было использовать компьютер, необходимы средства преобразования бумажных документов в электронную форму.

Если предполагается, что документ содержит в основном текстовую информацию, то можно выделить следующие основные этапы такого преобразования:

· в ходе сканирования при помощи устройств оцифровки изображения производится создание электронного образа (изображения) документа;

· процесс распознавания позволяет преобразовать электронное изображение в текстовые данные (с сохранением элементов форматирования оригинала или без них);

· для документов, исполненных на иностранном языке применяют дополнительные средства автоматизированного перевода на другой язык.

Процесс создания электронного изображения бумажного документа напоминает его фотографирование и требует применения соответствующего устройства. Сегодня в качестве такого устройства выступает сканер

Сканер является внешним устройством и подключается к компьютеру через специальный разъем. При высоком разрешении и большой площади сканируемого документа объем передаваемых данных оказывается очень большим и требует производительной линии передачи.

Разные модели сканеров понимают разные управляющие команды. Чтобы избежать разнобоя, был принят универсальный стандарт взаимодействия сканера и приложений. Этот стандарт называется TWAIN. Приложение посылает команды драйверу TWAIN, который преобразует их в инструкции, распознаваемые сканером. Таким образом, для приложения перестает иметь значение конкретная модель сканера.

Сканирование через посредство интерфейса TWAIN осуществляется следующим образом. Сначала следует включить сканер. Команда сканирования располагается в приложении в меню Файл. После выбора этой команды открывается диалоговое окно драйвера TWAIN, вид которого зависит от модели сканера. В этом окне задают параметры сканирования: черно-белый или цветной режим, разрешение, коррекция яркости и контрастности. Большинство сканеров позволяют также произвести предварительное черновое сканирование с низким разрешением и по его результатам точно задать область сканирования – часть страницы документа.

После настройки всех параметров следует щелкнуть на кнопке Сканировать. Процесс сканирования происходит автоматически, и изображение передается в приложение. Диалоговое окно драйвера TWAIN автоматически не закрывается, так что, например, в многооконных графических редакторах (таких как Adobe PhotoShop) можно сразу провести сканирование нескольких изображений.

Этап распознавания документа состоит в преобразовании электронного изображения в текстовый документ. Ранее для описания этого процесса обычно использовался термин OCR (Optical Character Recognition), который соответствует одному из используемых методов. При таком подходе происходит “сравнение” элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты. Современные алгоритмы распознавания не привязаны к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях.

В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки – на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.

Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader. Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.

Основные операции обработки бумажного документа в программе FineReader выполняются с помощью панели инструментов Scan&Read. С точки зрения этой программы, процесс обработки документа состоит из пяти этапов:

· сканирование документа (кнопка Сканировать);

· сегментация документа (кнопка Сегментировать);

· распознавание документа (кнопка Распознать);

· редактирование и проверка результата (кнопка Проверить);

· сохранение документа (кнопка Сохранить).