Комп’ютеризований контент-аналіз.
Матриця даних мережного аналізу тексту
Номер блока тексту | A®B | A®С | С®B | С®А | В®А |
0,50 | 0,25 | 0,25 | 0,00 | 0,00 | |
0,25 | 0,00 | 0,50 | 0,25 | 0,00 | |
0,00 | 0,00 | 0,25 | 0,50 | 0,00 | |
… | … | … | … | … | … |
Перші контент-дослідження з використанням технічних засобів у гуманітарній сфері пов'язані з роботами італійського священика Роберто Бузи, який ставив перед собою завдання з допомогою технічних засобів створити конкорданси повного зібрання листів Томи Аквінського. Дисертація Р. Бузи, захищена в 1946 р., присвячена вивченню поняття «присутність» у розумінні домініканського мислителя. У кінці 1940 рр. Буза поставив перед собою завдання створити «Index Thomisticus», який би містив повний конкорданс 10,6 млн. слів Томи Аквінського. Зрозуміло, що вирішення цього завдання без використання технічних пристроїв було неможливим.
Робота, розпочата з використанням перфораторів і сортувальних машин, була завершена через 33 роки на базі великих універсальних ЕОМ серії IBM. Разом з іншою інформацією, Індекс складався з майже 70 000 сторінок. За оцінками Бузи, на всю роботу використано понад 1 млн. людино/годин, головним чином для введення і перевірки даних. В 1992 р. отець Буза заснував школу лінгвістики і герменевтики на філософському факультеті Грегоріанського папського університету в Римі, останнє згадування про його знамениту роботу датується 2002 р., коли невтомному Р. Бузі виповнилося майже 90 років.
Під комп’ютеризованим контент-аналізом ми будемо розуміти аналіз текстових матеріалів, у якому всі кроки виявлення змістовних властивостей (характеристик) і визначення сукупностей концептуальних показників тексту здійснюються за допомогою алгоритмів, тобто явних логічних або статистичних операцій. На думку Б. Юськова, варто виділяти чотири покоління програмного забезпечення контент-аналізу.
Програми І покоління (1950 рр. – 1960 рр.) - цевузькоспеціалізовані програми для проведення окремих розрахунків або програми загального користування (текстові і табличні процесори, системи керування базами даних), призначені для проведення числових розрахунків, статистичного аналізу, побудови примітивних графіків з можливостями виконання окремих менеджерських функцій щодо тексту (зберігання, копіювання, формування індексів).
Програми першого покоління дозволяли зберігати і архівувати самі тексти, будувати і видруковувати прості індекси і конкорданси, підшуковувати цитати і виводити їх на друк. Перше покоління важко назвати програмами контент-аналізу, оскільки це лише використання різноманітних програм для цілей контент-аналізу.
Програми ІІ покоління (1966 р. – середина 1980 рр.)– це спеціалізовані програми кількісного аналізу, обмежені обробкою текстів, які не виходять за межі ручної технології. Основна увага в них концентрується на кодуванні, пошуку ключових слів і фраз, виведенні інформації у формі різноманітних індексів, конкордансів. Вони дозволяють здійснювати ручне, автоматизоване і автоматичне кодування з використанням словників, реалізують різноманітні стратегії пошуку, формування таблиць конкордансу, здійснюють аналіз колокацій, дають можливість роботи з електронними текстами.
Основна ціль конкордансів – спрямувати увагу на безпосереднє лінгвістичне середовище вибраного слова. Спочатку дослідник виявляє потенційно цікаве слово, далі знаходить відповідний йому конкорданс, що дає змогу визначити шаблони (патерни), характерні для даного слова і в яких даному слову відводиться цілком визначена роль.
Існує декілька форматів конкордансу. Один із способів демонстрації контексту зустрічання слів є формат KWOC (keyword-out-of-context – ключове слово поза контекстом) – перелік слів із вказанням місцезнаходження. У ньому ключове слово показується справа або зліва від контексту, а контекст подається у вигляді цілого речення, яке може займати декілька рядків. Більш поширеним є альтернативний формат KWIC (keyword-in-context – ключове слово в контексті), який займає лише один рядок із ключовим словом у центрі цього рядка (однакова кількість слів справа і зліва від ключового слова).
Разом з конкордансом здійснюють колокацію (collocate analysis) – статичний аналіз появи комбінацій слів. Завданням колокації є визначення слів, які зустрічаються біля заданого вузлового слова. Після вибору вузлового слова або групи вузлових слів, об’єднаних спільною ідеєю або спільним об’єктом, визначаються всі слова, які знаходяться зліва і справа від вузлових слів у межах заданої відстані. Зібраний у такий спосіб контекст утворює мінітекст. Далі проводиться аналіз частоти зустрічання слів у мінітекстах. Різниця між очікуваною частотою появи тих чи інших слів і реальною частотою зустрічання служить мірою «притягання» слів вузлом.
Появу другого покоління програм комп’ютеризованого контент-аналізу пов’язують з Гарвардським університетом (США), група науковців якого під керівництвом Ф. Стоуна в 1961 р. почала розробку принципів систематичного комп’ютеризованого контент-аналізу. Уже в 1966 р. була завершена перша версія програми The General Inquirer. Перевіряючи можливості програми, автори проекту повторили чимало своїх і чужих досліджень, використовуючи категорійний апарат попередніх ручних методик. Одне з оригінальних завдань, на якому тестувалася система, є дослідження 66 посмертних записок самогубців, з яких 33 – написані тими, хто справді здійснив самогубство, а решта – особами, що лише його симулювали. The General Inquirer в 91% випадків виявила записки справжніх самогубців.
У 1970 рр. було також розроблено методи і теоретичні пропозиції щодо формування текстових архівів і розпочато їх створення. До числа найстаріших і найвідоміших відноситься Оксфордський текстовий архів, який нині включає великі високоякісні, добре задокументовані колекції грецької, латинської та англійської літератури, які з 1976 р. доступні для зацікавлених осіб в Інтернеті. Зараз існує багато електронних текстових архівів з різноманітних джерел, різного призначення і на різних мовах. Нинішні повнотекстові бази даних включають не лише електронні копії оригіналів першоджерел (скановані тексти, рукописи, малюнки, аудіо-, відео-, теле-, фотозображення), а й незалежні від них засоби інтерпретації.
Сьогодні системи цього різновиду контент-аналізу переживають період ренесансу. Прикладом їх можуть бути програми The Words, TextSmart, DICTION. Програми цього покоління не вийшли за межі логіки ручної технології контент-аналізу і практично не змінили її. Вони були допоміжним інструментарієм, який просто полегшував виконувати рутинну роботу, яку аналітик робив і до їхньої появи. Але власне в цей період комп'ютеризований контент-аналіз почав застосовуватися в психології та психотерапії, а також отримав розповсюдження в Європі.
Програми ІІІ покоління (середина 1980 рр. – 1990 рр.)характеризуються надзвичайним розмаїттям, виходить за межі ручної технології і значно посилюють аналітичні можливості дослідника. Програма виступає своєрідним досвідченим експертом, реалізуються функції всіх етапів досліджень, збільшилося число виконуваних функцій структуризації даних, візуалізації результатів, формування та перевірки гіпотез, формування висновків і звітів,.
Перехід до програм третього покоління був пов’язаний з переходому 1980 рр. від великих ЕОМ до персональних комп'ютерів, а потім – від операційної системи MS DOS до MS Windows з його графічним інтерфейсом і дружнім ставленням до користувача. Ці технічні і технологічні зміни створили можливості для забезпечення вільного діалогу людини з комп’ютером. Органічним доповненням був бурхливий розвиток Інтернету, широке розповсюдження електронних архівів-бібліотек, загальна доступність електронних текстів і можливість доступу до текстових архівів через Інтернет у режимі on-line.
Програми третього покоління мають засоби для формування текстів і створення на їхній основі цілих проектів; вивчення частоти і контексту використання слів; створення і підтримка категорій і схем класифікації; присвоєння однієї або більше категорій рядкам символів, словам, фразам, реченням, параграфам або цілим текстам; зберігання приміток («мемо») до текстів, кодування текстових сегментів; отримання різних форматів перегляду текстів, частин текстів або груп текстів; підтримка командної або спільної роботи в рамках проекту і злиття в один кількох проектів.
Такі можливості послужили основою створення цілого ряду програм для контент-аналізу в окремих сферах. До них можна віднести програми для дослідження медіа, наприклад, CARMA® (Computer Aided Research & Media Analysis), Precis™, Echo®Research, IMPACT™, Metrica, the Delahaye Medialink system. Окрім здійснення самого контент-аналізу, ці програми включають такі модулі, як убудовані медіабази даних, що забезпечують уведення, доступ і підрахунок відповідних статистичних даних, які стосуються різних параметрів медіа-засобів.
В різних країнах з’явився ряд науково-дослідних центрів, які спеціалізуються на комп’ютерному аналізі текстів. До таких можна віднести університетські наукові центри Centre for Computer Assisted Qualitative Data Analysis Software (м. Суррей, Великобританія), Centre for Social Anthropology and Computers (м. Кент, Великобританія), добре відомі центри ZUMA – Zentrum fur Umfragen Methoden und Analysen (м. Мангейм, Німеччина), Qualitative Solutions and Research (м. Ла Троуб, Австралія).
Програми IV покоління (від середини 1990 рр.) вийшли за межі обробки текстів, це масштабні системи зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерний розвинений графічний інтерфейс, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер.
Ці програми «вбудовують» його в інші технології. Прикладом технології цього покоління, що дістала застосування вже з середини 1990 рр., є технологія «видобування» даних або Text Mining (більш повна назва – Text Analysis and Knowledge Mining System). Text Mining – це алгоритмічне виявлення на основі статистичного і лінгвістичного аналізу, а також штучного інтелекту раніше невідомих зв'язків і кореляцій у вже існуючих неструктурованих текстових даних для проведення значеннєвого аналізу, забезпечення навігації і пошуку в неструктурованих текстах з кінцевою метою одержання нової цінної інформації – знань.
Text Mining здійснює такі види аналізу, як:
- виявлення або видобування інформації (цей аналіз передує всій решті видів комп’ютерного аналізу неструктурованих текстів і служить основою для їхньої реалізації);
- відслідковування категорій або тем (визначаючи і зберігаючи деякі параметри користувача, наприклад, якого виду документи він переглядав раніше, які теми і поняття присутні в документах, що цікавлять користувача, система знаходить схожі інформаційні матеріали і регулярно передає їх для нього);
- резюмування або реферування документів (за рахунок вилучення неістотних деталей і скорочення довжини тексту виділяються головні моменти і загальний зміст);
- класифікація або категоризація тексту (основна ідея аналізу є віднесення об'єктів з текстових масивів до заздалегідь визначених категорій, можливе групування документів у Intranet-мережах і на Web-сайтах, розміщення їх у визначених папках, сортування повідомлень електронної пошти, відслідковування і вибіркове поширення тематичної інформації користувачам тощо);
- кластеризація або групування (виділення компактних підгруп об'єктів з близькими властивостями; даний вид аналізу дуже схожий до класифікації, однак тут немає наперед визначених категорій, вони формуються на основі самих даних, перевага кластеризації полягає в тому, що документ може одночасно стосуватися багатьох категорій);
- знаходження винятків (пошук об'єктів, які своїми характеристиками сильно виділяються на тлі загальної маси);
- пошук пов'язаних ознак, полів, понять окремих документів
- візуалізація даних (візуалізація дозволяє представляти великі за обсягом документи у вигляді інтерактивних графічних зображень або мап, коли в результаті взаємодії з ними користувач має змогу переглядати їх з допомогою простих засобів пошуку).
За даними Центру технологічної політики і оцінювання (Technology Policy and Assessment Center – TPAC) Джорджіанського інституту технологій, станом на кінець 2000 р. в Інтернеті було представлено понад 70 інструментальних систем Text Mining.
Одним із найперспективніших напрямів узагальнення інформаційних потоків є контент-моніторинг. У найпростішому вигляді його ідею можна сформулювати як постійно здійснюваний в часі контент-аналіз неперервних інформаційних потоків.
У березні 2001 р. в ряді російських і українських інтернет-видань з'явилися повідомлення про використання Управлінням розвитку інформаційних технологій, яке є частиною директорату науки і технології ЦРУ США, Text Mining для роботи з відкритими джерелами інформації. Мова йшла про застосування розвідувальним відомством трьох комп’ютерних систем – Oasis, FLUENT, Text Data Mining.
Перша система пов’язана з медіа-моніторингом як систематичних, так і випадкових джерел, які охоплюють друковані видання, цифрові матеріали, графічні зображення, аудіоінформацію 35 мовами світу. Наприклад, під час роботи з аудіоінформацією система Oasis перетворює звукові матеріали в текст, розпізнаючи мову, чоловічі та жіночі голоси, голоси різних людей, і записує їх. Крім того, методика дозволяє виділяти з потоку лише ті голоси і ту інформацію, які закладені в настройках системи.
Комп'ютерна технологія FLUENT призначена для пошуку інформації в текстових документах. Маючи на вході ключові слова англійською мовою, система тут же перекладає їх на ряд інших мов, шукає інформацію в текстових базах даних з документами на різних мовах і повертає аналітику результати пошуку після автоматичного перекладу. FLUENT дозволяє перекладати англійською мовою з китайської, корейської, португальської, російської, сербсько-хорватської, української та інших мов.
Ще одна програма, Text Data Mining, дозволяє автоматично створювати візуальні образи текстових документів, а також отримувати дані про частоту використання тих або інших слів. Перелічені технології ЦРУ використовує для відслідковування незаконних фінансових операцій і наркотрафіку.