Пошук і перегляд документів


Принципово новою якістю технології електронних документів є здатність проводити автоматизований змістовний (контекстний) пошук документів. Природно, що при інтерактивній роботі знайдений системою документ треба відразу показати користувачу, тому, як правило, функції пошуку і перегляду повинні розглядатися разом. Ці функції забезпечують вирішення третьої основної задачі СЕД: надання користувачам інтерактивного доступу до документів.

Для людини найбільш природною метафорою пошуку і перегляду може служити така аналогія. Людина прийшла в книгарню або в бібліотеку, щоб знайти потрібну йому інформацію, що можливо міститься в книгах, журналах або в якій-небудь іншій документації. Якщо вона точно знає, у якій книзі (назва, автор) може міститися ця інформація, вона просто запитує про цю книгу продавця або бібліотекаря. Але це випадок тривіальний.

Якщо людина не знає точної адреси, тоді вона бродить серед книжкових полиць і шукає на корінцях книг придатні слова.

Якщо вона знаходить яку-небудь книгу, то бере її з полиці та перегортає (перегортати - to browse), моментально вихоплюючи з потоку сторінок ті сторінки, абзаци, речення, слова, що цікавлять його. Знайшовши необхідну інформацію, людина вирішує, чи варто продовжувати пошук далі. Не знайшовши інформацію, що цікавить, людина кладе книгу на місце і знову бродить серед полиць, відшукуючи новий екземпляр.

Може бути й інша схема, коли людина просить продавця або бібліотекаря видати стопку (добірку) книг з якої-небудь визначеної тематики, а вже потім у ній шукає потрібну інформацію.

В усіх цих схемах чітко проглядаються три основні дії: навігація між книжкових полиць, швидкий перегляд, уважне знайомство. І людина є активним учасником цього процесу.

Сучасні СЕД будують пошук і перегляд саме за такою схемою. Так це і не дивно. У найбільш загальному вигляді пошук будується за наступною схемою: послідовне повторення вибору підмножини елементів з деякої множини відповідно до заданого пошукового критерію. Як остаточний і найвищий критерій відбору документів звичайно використовується їх перегляд людиною. Тому пошукові механізми й інструменти повинні надавати можливість включення людини в процес пошуку, тобто перегляду відібраних документів.

Важливість участі людини в процесі пошуку була виявлена понад 20 років тому, коли формувалася теорія індексування і пошуку. Тоді було виявлено, що дії користувача при пошуку інформації поділяються на два типи:

• одна сукупність дій відноситься до пред'явлення запитів і перегляду результатів,

• інша пов'язана з формулюванням запитів і їх уточненням за результатами аналізу перегляду і порівняння з тезаурусом.

Ці два способи роботи користувача при пошуку в інтерактивному режимі були названі відповідно методом пошуку по запиту і методом швидкого перегляду. Причому, найбільш передові системи застосовували метод швидкого перегляду як більш ефективний за рахунок активної участі людини, хоча для цього було потрібно більше ресурсів і більш розвинені інтерактивні засоби. Накопичений досвід застосування таких систем показав, що користувачу легше зробити уточнення запиту в момент пошуку, коли він зосереджений на вирішенні пошукової задачі і коли він може залучати додаткову інформацію, чим коли він формулює запит умоглядно.

Що ж стосується пошуку в СЕД, то його сучасна концепція була сформована в Internet майже за такою ж схемою, як у методі швидкого перегляду, а потім була перенесена в корпоративні мережі, тому викладена вище схема може вважатися технологією тільки наполовину - інша половина її є корпоративною інформаційною культурою. В Internet ця культура розвивалася протягом всієї історії Мережі, тому саме там варто вчитися цій культурі, традиціям, методам.

Таким чином, найбільші переваги СЕД виявляються при пошуку документів і їх перегляді, побудованих на технології Internet/intranet. У цьому випадку можна задавати дані про шуканий документ або слова з тексту документа і, не піклуючись про адресу його збереження, знайти, переглянути, послухати (якщо це аудіозапис) на своєму комп'ютері або роздрукувати на принтері знайдений документ (добірку документів) за наявністю відповідних повноважень.

Перегляд документа розуміється досить широко. Це може бути текст, малюнок, звуковий запис, відеофільм або презентаційний ролик. Можна замовляти перегляд пов'язаних між собою документів і, розділивши екран комп'ютера на декілька вікон, у кожному з них переглядати окремий документ.

Очевидно, що для проведення такого пошуку необхідне індексування документів. Системи індексування можуть бути різними. Найбільш розповсюдженими є атрибутивні та повнотекстові системи індексування. Спосіб побудови індексів (індексування) у системі впливає на швидкість і якість пошуку.

У випадку атрибутивного індексування при введенні документа в систему формуються реквізити, що однозначно його ідентифікують. Це можуть бути такі атрибути документа, як ім'я автора, дата створення, дата останнього редагування, тема тощо. Для атрибутного індексу звичайно застосовується одна з розповсюджених СУБД, як правило, реляційна. Кінцеві користувачі (або адміністратори) вводять значення атрибутів при реєстрації та збереженні документа або адміністратор системи пише деяку програму, що автоматично витягує інформацію із самого документа.

Пошук по атрибутному індексу здійснюється стандартними засобами обробки запитів у СУБД. Результатом такого пошуку стануть тільки ті документи, що задовольняють заданому строгому критерію.

Пошук по атрибутному індексу виконується швидше, ніж по інвертованому матричному, але можливості пошуку істотно звужуються.

У випадку повнотекстового індексування створюється файл інвертованих списків, що містить перелік усіх значущих слів по всіх оброблюваних документах. Незначущі слова (прийменники, союзи та ін.), що включені в так званий стоп-словник, не вносяться в індекс. Крім того, існує можливість установлення взаємозв'язків між окремими словами, що є основними будівельними елементами семантичного словника - тезауруса. Це дозволяє реалізувати не тільки можливість пошуку по простому збігу символів у словах і словосполученнях, об'єднаних операторами булевої алгебри, але і здійснювати інтелектуальний пошук, включаючи в запит, наприклад, синоніми або узагальнення (пошук з використанням тезауруса). Більшість сучасних систем забезпечує "миттєве" (у масштабі часу, характерному для реакції системи) індексування, тобто зміни, внесені в документи, відбиваються в індексі "одночасно" з корекцією, що дозволяє відразу одержувати необхідні документи при виконанні пошуку.

При виборі СЕД необхідно звертати особливу увагу на функціональні можливості індексування і пошуку: бажана наявність комбінованого способу індексування, що дозволяє організувати об'єднаний пошук як по реквізитах, так і по довільному тексту (наприклад, по термінах у документах за визначений діапазон часу).