Складений і віртуальний документ


Об'єкти бази документальних даних (база документів) є блоками для побудови простих, складених і віртуальних документів.

Простий документ - це документ одного типу даних, наприклад, графічний образ. Складений же документ містить окремі фрагменти різних типів даних (наприклад, текст, відео, таблиця, графіка). При цьому власне документ і його збережений образ - це повний складений документ.

Віртуальний документ - це сукупність інформаційних об'єктів (таких як текст, графіка, відео, додатки та ін.), що компонується в єдиний документ динамічно по запиту користувача.

Головна відмінність віртуального документа від складеного складається в динамічному компонуванні документа в реальному масштабі часу роботи з документом.

Віртуальні документи порівняно зі складеними документами мають ряд переваг:

• Інформація більш точна для користувача, оскільки при кожному звертанні до неї зміст віртуального документа визначається заново.

• Постачальнику віртуальних документів легше обновляти інформацію. Відновлення одного з фрагментів автоматично приводить до відновлення усіх віртуальних документів, у
яких є покажчик на цей фрагмент.

• Інформація, що складає віртуальний документ, може бути розподіленою, тобто зберігатися в різних місцях.

• Реалізується головний принцип об'єктно-орієнтованого підходу - однократне збереження, багаторазове використання. Отже, заощаджуються ресурси, необхідні для збереження
документів.

• Відмінна можливість колективної роботи, оскільки кожний учасник може працювати над своїм окремим фрагментом того самого документа.

• Користувач інформації може дати запит на створення нового документа, що відповідає його критеріям. У випадку статичних документів користувач може одержати лише вже
існуючий документ.

Слід також згадати і деякі недоліки, що притаманні віртуальним документам:

• Більш складна порівняно зі статичними документами реалізація програмного забезпечення.

• Необхідність побудови моделі, відповідно до якої створюються віртуальні документи (а також запити до них). Конкретна модель може виявитися занадто складною і, як
результат, недоцільною.

Відзначені особливості можуть призвести до того, що в ряді випадків може виявитися більш економічно доцільним працювати зі статичними, ніж з віртуальними (динамічними) документами. Такі випадки мають за мету, як правило, можливість підтримки інформаційної бази без істотної автоматизації, що є реальним тільки у випадку роботи з невеликою базою документів.

В інших же випадках побудови моделі взаємодії з користувачами застосування віртуальних документів може виявитися зручним і економічно доцільним рішенням.

Якщо розглядати вміст як об'єднання окремих об'єктів, то ті самі елементи можна без проблем комбінувати і використовувати в самих різних документах. СЕД, один раз зберігши об'єкт, повинна відслідковувати всі його версії та місця їхнього використання. Це спрощує об'єднання документів, великих за розміром або складених.

Введення можливості роботи з віртуальними документами істотно полегшує і прискорює процес створення добірок, що складаються з фрагментів, формально не зв'язаних між собою інформаційних компонентів. Для управління віртуальним документом (звичайно ця функція називається віртуалізацією) СЕД повинна координувати діяльність окремих своїх функціональних компонентів, щоб забезпечити наступні можливості:

• управління конфігурацією (структурою віртуального документа), ефективністю даних, забезпечення архівування і розархівування для всіх компонентів віртуального
документа;

• управління зв'язками (користувальницькими зв'язками), що є контекстно-залежними гіперзв'язками між окремими фрагментами віртуального документа, для забезпечення
швидкого пошуку;

• динамічне компонування для створення віртуального документа за правилами ділових процедур;

• багаторазове використання фрагментів, що припускає збереження їх на будь-якому рівні розбивки і застосування в різних віртуальних документах без утрати цілісності;

• підтримка документаційних стандартів, що дозволяє виділяти окремі фрагменти документів і, відповідно, зберігати їх для наступного пошуку, автоматичного
перетворення і вбудовування в прикладні програми, що підтримують дані стандарти.

У процесі роботи з документом, при його узгодженні, при створенні множини альтернативних проектів документа, з'являється необхідність ідентифікувати і зберігати версії документа. Часто вони використовуються для історії, але іноді версії створюються спеціально як альтернативні варіанти для вибору найбільш придатного рішення. В такому випадку, а також при одночасній роботі з документом відразу декількох користувачів (особливо, коли його необхідно погоджувати в різних інстанціях) дуже зручною Функцією СЕД є використання версій і підверсій документа. Припустимо, виконавець створив першу версію документа і передав її на розгляд наступному користувачу. Другий користувач змінив Документ і створив на його основі вже нову версію. Потім він передав свою версію документа в наступну інстанцію третьому користувачу, що створив уже третю версію. Через деякий час, ознайомившись із зауваженнями і виправленнями, перший виконавець документа вирішує доробити вихідну версію і на її основі створює підверсію першої версії документа. Достоїнством СЕД є реалізована в них можливість автоматичного відстеження версій і підверсій документів (користувачі завжди можуть визначити, яка саме версія/підверсія документа є найбільш актуальною за порядком або часом їх створення).

Класифікація і кластертація документів

Досить очевидним є той факт, що при пошуку у великих інформаційних масивах можна істотно підвищити ефективність пошуку шляхом розбивки всього масиву на частини, керуючись яким-небудь критерієм розбивки, пов'язаним з пошуком, і проводячи спочатку вибір придатного класу, а потім уже пошук документа, що цікавить. Класифікація документів дозволяє звузити область пошуку й у такий спосіб не тільки підвищити швидкість, але й істотно збільшити точність одержання результату. Тому технології класифікації документів завжди приділялася важлива роль у системах електронного документообігу.

У теорії інформаційних систем розрізняють два типи класифікації. Перший тип є чисто абстрактним, у якому документи як деяка формальна множина підрозділяються на класи відповідно до аксіоматично введених критеріїв розбивки. Класифікація другого типу побудована на емпіричному аналізі конкретної сукупності документів з метою досягнення заздалегідь заданої мети.

Перший тип класифікації добре підходить для бібліотечних систем, де документи (книги) класифікуються за тематичними рубриками, що, як правило, вже досить стійко сформувалися в процесі тривалого історичного розвитку.

Для документів установ такий підхід непридатний, оскільки більшість документів споконвічно класифікується недостатньо коректно, пошукові запити формулюються неточно. Для опису адекватних моделей класифікації не існує чітких критеріїв. Тому при впровадженні СЕД варто звернути особливу увагу на створення придатних для конкретної установи емпіричних класифікацій документів.

Рекомендуються наступні критерії оцінки якості емпіричної класифікації:

• класифікація має бути коректно визначеною так, щоб для будь-якої множини об'єктів виходив однозначний результат;

• результати класифікації не повинні залежати від порядку обробки;

• класифікація має бути стійкою: малі зміни даних не повинні сильно впливати на результат класифікації;

• класифікація не повинна залежати від обсягу вибірки (масштабна незалежність);

• схожі об'єкти не повинні потрапляти в різні класи.

З практичної точки зору найбільш придатним методом класифікації є метод угруповання і пошуку найближчого сусіда. Цей метод заснований на описі класу як списку вхідних у нього елементів. Класи формуються при обчисленні відстані між парами об'єктів і об'єднанні найближчих сусідів у кластери. Цей метод наочний і простий, дає дуже гарні результати. Останнім часом у зв'язку з прогресом у розвитку інструментальних засобів людино-машинного інтерфейсу найбільш популярними вважаються інтерактивні кластерні методи, коли користувач може в процесі роботи за комп'ютером одержувати результати кластеризації, досліджуючи структуру кластерів візуально на екрані дисплея.

Сучасні СЕД повинні підтримувати різні механізми класифікації та кластеризації. Як правило, найбільш проста (первинна) класифікація документів відбувається під час реєстрації. Далі документи можуть бути розбиті на інші (відмінні від вихідних) класи відповідно до деякого критерію. Часто класи документів формуються по запиту за допомогою пошукових машин, що обробляють запити користувачів. Така класифікація часто називається віртуальною.

Віртуальна класифікація дозволяє будувати динамічні (такі, що обчислюються) класи, що залежать як від запиту користувача, так і В'Д стану сховища документів і їх фрагментів (наприклад, для віртуальних документів).

Деякі СЕД здійснюють класифікацію, формуючи кластери автоматично в момент появи документа в системі незалежно від користувача. Така автоматична класифікація звичайно буває досить Розмитою - один документ може відразу потрапити в різні класи ВіДповідно до різних основ (підстав) класифікації. Більш строга і точна класифікація, звичайно ж, здійснюється по запиту користувача, що виконує який-небудь змістовний аналіз сукупності документів.

Звичайно в життєвому циклі документа відбувається повна і/або часткова зміна значень його атрибутів. Саме значення атрибутів часто впливають на формування класів і міграцію документів між класами. Зміна значень атрибутів змінює статус документа, його точку на життєвому циклі (координату в життєвому просторі).