Виды систем ввода документов
Помимо технологических аспектов, о которых мы говорили выше, существует также специфика, связанная с масштабом использования технологии ввода бумажных документов. Действительно, когда говорят о домашних или о персональных системах ввода документов, то обычно подразумевают именно распознавание неформализованных документов, при незначительном количестве ввода документов за единицу времени. В данном случае на первое место выходит именно технология OCR.
Напротив, ввод формализованных документов – это технология, которая обычно используется в организациях и имеет массовый характер. В данном случае наряду с распознаванием текстов встаёт масса технологических проблем: организация поточного (массового) сканирования, распределённая обработка, встраивание решения в корпоративные системы документооборота и т.д. Технологии, обеспечивающие решение данного набора задач, называют технологиями Data Capture.
Data Capture (дословно «захват данных») – это комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним.
Из отечественных компаний на рынке ввода и распознавания документов и форм наиболее активно работают фирмы ABBYY и Cognitive Technologies.
Системы ввода документов с учётом масштаба технологии можно разделить на четыре вида:
Рис. 8.6. Классификация программ для перевода документов
в электронный вид