Тема 2. Інформаційно-пошукова мова

 

План

 

1. Інформаційно-пошукова мова, визначення, завдання. Вимоги

2. Види інформаційно-пошукової мови:

а) класифікаційного типу;

б) дескрипторного типу

3. Інформаційно-пошуковий тезаурус. Поняття. Завдання

Ключові слова: інформаційно-пошукова мова, інформаційно-пошуковий тезаурус

 

1. Інформаційно-пошукова мова, визначення, завдання. Вимоги

 

Метою будь-якої ІПС є надання користувачеві можливості пошуку інформації за відомими даними, або необхідною йому тематикою, вираженою спеціальними запитами. Процес складання запиту допускає багатоваріантність і є свого роду мистецтвом. Крім того, процедура пошуку має чітко визначену етапність: від визначення інформаційної потреби та засоби пошуку до аналізу результатів визначену етапність: від визначення інформаційної потреби та засоби пошуку до аналізу результатів та вибору пертинентних (відповідних запиту користувача) об'єктів. На першому етапі визначається мета пошуку, його стратегія та засоби проведення (каталоги, бази даних). Наступна, оперативна частина пошукової процедури - це багатоваріантність підходів та рішень при формалізації запитів у процесі їх відпрацювання. Подальший етап - робота з документами, отриманими у списку релевантних. Від вірного вибору переліку документів-першоджерел залежить результат роботи всіх трьох етапів пошукової процедури. У процесі пошуку необхідних документів ми орієнтуємось не на повні їх тексти, а на дані, що дозволяють отримати уявлення про їх зміст: це можуть бути класифікаційні індекси, перелік бібліографічних даних, тематичні рубрики тощо. При переході від документа до його скороченого опису з метою використання для подальшого пошуку, ми перекладаємо зміст документа на інформаційно-пошукову мову, тобто здійснюємо процес індексування інформації. Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду "комплектування - програмне забезпечення - індексування інформації - процес проведення пошуку". Опис змісту документа за допомогою ІПМ - це пошуковий образ документа (ПОД), а опис змісту запиту - пошуковий образ запиту (ПОЗ). Саме від вміння правильно їх представити багато в чому залежить якість роботи всієї ІПС. Тому при розробці автоматизованих ІПС велику увагу необхідно приділяти вибору інформаційно-пошукових мов.

Інформаційно-пошукова мова - формалізована мова, призначена для характеристики даних чи змісту документів з метою забезпечення їх зберігання та пошуку.

До ІПМ ставиться цілий ряд вимог:

 

ІПМ повинна мати достатній набір лексико-граматичних засо­бів для точного вираження центральних тем або змісту будь-якого тексту (документа) і теми довільного інформаційного запиту;

ІПМ має бути однозначною, тобто кожний запис нею по­винен мати лише одне семантичне тлумачення;

ІПМ має бути зручною для порівняння та повного чи частко­вого порівняння ПОД і ПОЗ;

ІПМ має бути компактною, мати невелику вартість та бути відкритою для можливого розширення та внесення змін.

Жодна з природних мов не може бути використана як ІПМ через недостатню структуризацію, велику кількість граматичних ви­нятків, неоднозначність та велику надлишковість природної мови. Наприклад, у російській мові надлишковість досягає 75-85%.

В ІПМ не допускається наявність характерних для природної мови синонімів та омонімів, оскільки вони спричинюються до семантичної неоднозначності мови.

 

Основним елементом інформаційно-бібліографічної системи є бібліографічний запис, мова якого реалізує в електронному середовищі комунікативну функцію між запитом користувача і змістом бібліографічної інформації. Основою бібліографічного запису є бібліографічний опис документа, який формується в процесі створення каталога. Стандартизація бібліографічного запису що містить однорідно і компактно подані дані про документ - необхідна умова успішного функціонування і взаємодії інформаційно-бібліотечної системи. Останнім часом мову бібліографічного опису розглядають в одному ряду з іншими інформаційно-пошуковими мовами як базову для виконання адресних та уточнюючих запитів користувачів.

Отже, мова бібліографічного запису розши­рює можливості пошуку необхідної інформації конкретних документів та даних, допомагає в уточненні їх місцезнаходження. Головне в бібліографічному описі - досягти уніфікації, що допоможе підвищити якість та ефективність роботи.

Сучасна автоматизована інформаційно-бібліотечна система (АІБС) здатна забезпечити пошук інформації за різними критеріями. З виникненням перших АІБС, електронних каталогів та бібліографічних баз даних (БД) постало питання забезпечення досконалого тематичного інформаційного пошуку. Саме тому значна увага стала приділятися вивченню та широкому розповсюдженню інформаційно-пошукових мов, основне призначення яких - розкриття змісту документа. В Україні чинним стандартом, що розкриває питання системи індексування є ДСТУ 2395-2000 "Обстеження документа, встановлення його предмета та відбір термінів індексування". Він орієнтований як на системи індексування дескрипторного типу так і на систе­ми індексування класифікаційного типу.

Для систематизації документів у бібліо­теках звичайно застосовуються інформацій­но-пошукові мови, що відносяться до традиційних бібліотечно-бібліографічних класифікацій. Державний стандарт України визначає класифікаційну систему як "інфор­маційну мову, призначену для структурного подання документів чи даних за допомогою класифікаційних індексів і відповідних термінів і з метою забезпечення реалізації класифіка­ційного предметного підходу з використанням, у разі необхідності, абеткового покажчика. Найбільш розповсюдженими в Україні є Бібліотечно-бібліографічна класифікація (ББК) та Універсальна десяткова класифікація (УДК).

Інформаційно-пошукова мова – це штучно створена мова, призначена для вираження основного змісту документа.

ІПМ є основним елементом логіко-семантичного апарату ІПС, від якості якого залежить ефективність інфор­маційного пошуку.

ІПМ будується на основі звичайної мови.

Необхідність створення штучної мови для вираження основного змісту документів, запитів та фактів з метою їх пошуку обумовлю­ється тим, що звичайна мова (на якій пишуть і розмовляють) має ряд властивостей, які перешкоджають її використання для записів і пошуку інформації.

Властивості: неоднозначність - для вираження одного й того ж поняття використовуються різні слова (формування, комплектуван­ня фондів).

Багатозначність - при однаковому написанні слова мають різ­ні значення і т. д.

Основні вимоги до ІПМ:

- однозначність (кожен запис на ІПМ повинен мати лише один зміст, одне тлумачення, а будь яке поняття повинно одержати єдинообразний запис засобами ІПМ);

- достатня семантична сила (здатність відображати з не­обхідною повнотою і точністю зміст документів і запитів);

- відкритість (забезпечення можливості коректувати мову).

Основними елементами ІПМ є алфавіт, лексика, граматика, па­радигматичні (базові) відношення, правила побудови індексів та їх ідентифікація.

Алфавітом називається система графічних знаків, що використо­вуються для фіксації слів і словосполучення мови.

Лексика мови - це сукупність слів, що використовуються в ній.

Граматика - це сукупність діючих засобів та правил побудови висловлювань засобами цієї мови.

Відношення між словами, які не залежать від контексту, де во­ни використовуються і спричинені не мовними, а логічними зв'язками, називаються парадигматичними відношеннями. Ці відношення називають­ся ще аналітичними або базовими. Завдяки предметно-логічним зв’язкам слова на основі тієї чи іншої семантичної ознаки можуть об'єд­нуватися в лексико-семантичні групи, які називаються парадигмами. Наприклад, слова “магнітна стрічка”, "магнітний диск", "перфокартка", "перфострічка", "гнучка магнітна дискета" утворюють тематичну групу "носії інформації". У середині цієї групи перелічені слова можна об’єднати в лексико-семантичні парадигми "носії паперові", "носії магнітні".

Іншим типом відношень, що пов’язують слова будь якої мови, є такі лінійні відношення, які безпосередньо установлюються при об’єднанні слів у словосполучення і фрази. Такі відношення назива­ються синтагматичними. Одним із найпростіших видів синтагматичних відношень є таке, коли до того чи іншого поняття приєднується ще одне, яке пояснює перше і вказує на те, що воно є власним ім’ям, визначенням чи певним видом діяльності. Так, наприклад, якщо доку­мент стосується винахідника і його винаходу, то поняття, які сто­суються винаходу та винахідника, відмічаються окремо, щоб уникнути плутанини при виконанні пошуку, наприклад, "Дізель" (винахідник) і "дизель" (двигун).

Із щойно сказаного можна зробити такий висновок: парадиг­матика спирається на певну сукупність (перелік) повязаних ніж собою мовних одиниць, а синтагматика потребує певних правил об'єднань цих одиниць у словосполучення. Тому парадигматику мо­ви можна з певним припущенням порівнювати з її лексикою, а синтагматику мови - з її граматикою.

При розробці ІПМ необхідно враховувати:

- специфіку галузі чи предмета, для якого ця мова роз­робляється;

- особливості текстів (документів), які утворюють по­шуковий масив;

- характер інформаційних потреб, для задоволення яких створюється ІПС.

 

2. Види інформаційно-пошукової мови

 

Види ІПМ:

- класифікаційні;

- предметизаційні;

- дескрипторні.

Доцільність використання тієї чи іншої мови багато в чому залежить від призначення інформаційної системи, рівня її оснащення технічними засобами та рівня автоматизації. Для зберігання документів у бібліотеках і технічних архівах використовують, як правило, мови, якими поширюються традиційні бібліотечно-бібліо­графічні класифікації. Словниковий склад цих мов задається у вигляді фіксованого списку слів і словосполучень. Ці мови нале­жать до класифікаційного типу:

Мови класифікаційного типу

Для систематизації документів у бібліо­теках звичайно застосовуються інформацій­но-пошукові мови, що відносяться до традиційних бібліотечно-бібліографічних класифікацій. Державний стандарт України визначає класифікаційну систему як "інфор­маційну мову, призначену для структурного подання документів чи даних за допомогою класифікаційних індексів і відповідних термінів і з метою забезпечення реалізації класифіка­ційного предметного підходу з використанням, у разі необхідності, абеткового покажчика. Найбільш розповсюдженими в Україні є Бібліотечно-бібліографічна класифікація (ББК) та Універсальна десяткова класифікація (УДК).

ББК - національна класифікаційна система Росії. Вона розроблялась продовж і десятиріч (починаючи з 30-х рр. XX ст.) спеціалістами крупних бібліотек колишнього СРСР, і тепер залишається провідною класифікаційною ІПМ ієрархічного типу. Зараз ББК існує у вигляді варіантів таблиць для наукових та обласних, масових, дитячих і шкільних бібліотек, таблиць для краєзнавчих каталогів. 1 листопада 2000 р. директорами провідних бібліотек Росії було укладено угоду, в якій визначено відповідальність РДБ, РНБ та БАН за розвиток ББК і питання про еталон ББК. Також було визначено головне завдання - вихід у світ Середніх таблиць ББК, що підбиває підсумок багаторічної роботи з удосконалення класифікації у 90-х рр. Функції федерального міжвідомчого координацій­ного центру, відповідального за видання і використання ББК, покладено на Науково-дослідний центр розвитку ББК (НДЦ ББК), що діє при Російській державній бібліотеці. ББК - найбільш розповсюджена класифікація і в Україні. Не маючи власної класифікації, вітчизняні бібліотечні фахівці намагаються якомога більше наблизити ці таблиці до національних потреб. Але нині це є досить проблематичним. НДЦ ББК має авторське право на видання таблиць і слідкує за його дотриманням. Українські бібліотечні працівники можуть, за домовленістю, видати україномовну версію лише повністю ідентичну до російського видання. Але останні повні таблиці класифікації для публічних бібліотек були видані в 1997 р., і тепер деякі розділи вже застаріли. Повних таблиць, які б охоплювали всі галузі знання, враховуючи сучасні нововве­дення, зараз не існує, а випуск окремих розділів розраховано до 2007 р. Тож склалася ситуація, коли кожна бібліотека, отримуючи російсько­мовний варіант, може трактувати і пристосо­вувати його до національних потреб по-своєму. Таким чином, ми втрачаємо основний принцип роботи з таблицями - їх уніфікацію у застосуванні. На превеликий жаль, у нас не існує центру, який би зміг правильно і чітко надавати бібліотекам рекомендації з впровадження нововведень. На сьогодні спеціалісти України обгово­рюють доцільність надання статусу національ­ного засобу індексування за таблицями Універсальної десяткової класифікації. Книжковою Палатою України реалізується проект "Класифікаційна система України", метою якого є створення й впровадження - еталону УДК українською мовою, наповнення його національною тематикою, осучаснення й адаптування до інформаційних потреб України. Результатом проекту стало перше видання таблиць УДК українською мовою, підготовлене Книжковою палатою України, яка є ексклюзивним власником в Україні ліцензій Консорціуму УДК. Введення УДК з 1962 р. в СРСР, в першу чергу, визначалося комунікативною функцією таблиць. Вважалося, що проставлені вітчизняними спеціалістами індекси УДК повинні бути зрозумілими за кордоном, а документи, що надходять звідти - нашим фахівцям. У 2000 р. Україна вперше за свою історію отримала видання УДК українською мовою. З дозволу Книжкової Палати Інститутом мате­матичного моделювання "Фраксім" на базі поліграфічного видання було розроблено електронну версію таблиць. У 2003 р. за представленими Консорціумом УДК матеріа­лами, Книжкова палата здійснила видання "Універсальна десяткова класифікація (УДК): Зміни та доповнення", що забезпечує акту­альність таблиць УДК, виданих українською мовою.

Мови дескрипторного типу

З огляду на ріст інформаційних потоків та інформаційних потреб ІПМ класифікаційного типу не задовольняють вимог сучасних інформаційних систем. Адже мова цього типу має дуже обмежений словниковий запас, поповнювати який не дуже легко, а тому мови цієї групи використовуються в дуже вузько-спеціалізованих системах. Більш поширені інформаційно-пошукові мови дескрипторного типу. Ця мова характеризується тим, що її словник складається із окремих ізольованих слів та словосполу­чень, розміщених в алфавітному порядку. Дескрипторна мова ґрунтується на методі координатного індексування, який дає змогу виражати зміст документа шляхом встановлення відповідності між текстом цього документа і деякою множиною ключових слів чи дес­крипторів.

Однією з головних вимог, які ставлять сьогодні до ІПС, є забезпечення користувача повною і релевантною інформацією, що можливо тільки при наближенні інформаційно-пошуко­вих запитів до природної мови. Саме тому питання удосконалення пошукових можливостей і підвищення якості представлення даних пов'язані з проблемою взаємодії систематич­ного і предметного принципів лінгвістичного забезпечення АІБС. То ж важливою складовою ІПМ є мови дескрипторного типу: рубрикатори, тезауруси, мова ключових слів. Дескриптори - терміни природної мови, що виражають певніпоняття. При роботі з рубрикатором, словником ключових слів користувачу не потрібні спеціальна бібліогра­фічна підготовка, знання таблиць ББК або УДК, він в змозі самостійно знайти різнобічну інформацію про предмет. Предметний пошук, на противагу галузевому, є міждисциплі­нарним, міжгалузевим, комплексним. Користувач може отримати множину всіх документів про предмет, проблему, тему незалежно від галузей знань, до яких належать усі ці документи. При цьому найважливішим критерієм оптимальної роботи є повнота вида документів за їх релевантним запитом. Цим визначається значимість координатного індексування документів, що передбачає багатоаспектне вираження основного змісту документ або запиту множиною ключових слів або дескрипторів. Координатне індексування включає наступні операції:

- змістовний аналіз документа;

- представлення змісту документа набором найбільш інформативних слів і словосполучень тексту;

- надлишкове індексування документів - тобто доповнення відібраних з тексту ключових слів і словосполучень пов'язаними з ним за змістом, ключовими словами, що не відображаються в тексті;

- переклад ключових слів і словосполу­чень на дескрипторну ІПМ;

- рішення про введення в пошуковий образ документа нових ключових слів, тобто тих, що не мають еквівалента в словниках нормативної лексики;

- нормалізація форми нових ключових слів.