Традиційний та новий засоби збирання та обробки мовних даних.

Якіми, в даному контексті, були і є традиційні засоби збирання та зберігання мовних даних? Це ручна обробка писемних текстів, опитування інформантів згідно з різноманітними методиками й подальше вивчення полевих анкет, записи текстів в писемної формі, словникових картотеках тощо. (8.Ціла низка методів полевих досліджень обговорюється у (Кибрик А.Е.Методика полевих исследований (к постановке проблеми).М.,1972). Зрозуміло, що цей етап збірання матеріалу в традиційної технології тривав довги роки. Є і інші проблеми. Так, у традиційної технології збирання й обробки мовних даних оновлення зібраного матеріалу є дуже проблемною задачею, тому що поточна обробка картотеки, пошук необхідних одиниц потрібують багато часу. Крім того, традиційна технологія практично унеможливлює доступ до мовних даних на відстані. Тому, деяки типи даних, - корпуси текстів,- існували в доволі обмеженому за обсягом вигляді (наприклад, у вигляді хрестоматій, добірок текстів).

 

Новітні інформаційні технології й технічни засоби (компютерні системи, системи зв’язку, мультимедійні системи) значно полегшили збирання мовних даних. З’явились достатньо продуктивні пристрої сканування тексту, ефективні програми розшифровуван-ня графічної інформації в суто текстовий формат (9.FineReader).

 

В галузі лексикографії, або словникарства, видавничи будинки використовують спеціально підготовлені корпуси текстів для укладання словників. Наприклад, Бірмін-гемський корпус англійської мови та відповідна база даних були використані видавни-цтвом Колінз для складання англомовних словників (10.див. Collins COUBUILD English Language Dictionary. London – Glasgo, 1987).

 

Через те, що комп’ютерні технології широко використовуються в друкарськії справі та засобах масової інформації, значно спрощеним стає процес отримання матеріалу: біль-шість газет та журналів, телепрограм мають електронні версії, яки можна знайти в Интер-неті.

 

Саме тому першим кроком в розширенні фактографії та екпериментальної бази в сучасній лінгвістиці стало створення корпусної лінгвістики. Цей бум спостерігається на протязі останнії десяти років, до нього залучилися мовознавці та інформатики десятків країн світу і який врешті-решт перетворює мовознавство на експериментальну науку.

 

Безпосереднім наслідком впровадження лінгвістичних корпучів як провідного техно-логічного інструментарію сучасного мовознавчого дослідження стало розширення меж опису мови. Сам лінгвістичний корпус у його найпростішому вигляді за своєю струк-турою нагадує спеціфичний словник, де реєстровою одиницею і водночас “лівою части-ною словникової статті” виступає певна лексема, а інтерпретаційною, “правою”, частиною є сумма “мікроконтекстів”, до яких входить реєстрова лексема у всіх її граматичних зна-ченнях.

 

Обсяги сучасних лінігвістичних корпусів сягають сотен мільонів слововживань, залу-чення до корпусів не тільки писемних, але й усних джерел, розширення їхніх функціо-нальних можливостей у бік багатомовності та удосконалення інструментарію свідчать про фундаментальність намірів учених, які намагаються охопити досліджувальну галузь (мо-ву) в усіх її проявах та повноті явищ. З пошиненням інформації в електронній формі ре-альною стала можливість зібрання значних масивів текстів у вигляді масивів лінгвістич-них даних за допомогою яких можна було б проводити різнопланові дослідження та ство-рювати прикладні мовно-інформаційні системи.

 

Зробимо спробу оцінити якими мусять бути обсяги лінгвістичних корпусів, на яких можна було б виконувати певні мовознавчі студії. Наприклад, репрезентативний об’єм дослідження функціонування лексичної системи української мови сягає 200,000 лексич-них одиниць. Такий масив охоплює приблизно 4 мільони граматичних форм слів. Для проведення статистично упевненого дослідження кожного слова в тексті необхідно мати хоча б 10 прикладів вживання кожного слова, що “тягне” за собою обсяг корпусу в 40 мільонів слововживань. Ось таким обсягом повинні оперувати сучасні мовознавчи ДОС-лідження, тобто 40-50 млн. слововживань. Враховуючи, що кодування одного українсь-кого слова в системі UNICODE при середній довжині 5-6 літер потребуватиме не меньше 10 байт, обсяг зазначеного масиву сягатиме 400-500 Мб, що цілком нормально для сучас-ного РС. Якщо ставити завдання проведення на корпусі досліджень інших феноменів мови – орфоепічних, синтаксичних, семантичних, когнитивних тощо – то, зрозуміло, обсяг тек-стового масиву лінгвістичного корпусу мусить значно збільшитися.

 

Саме можливость зібрання в стандартному сучасному РС таких, та навіть набагато біль-ших масивів текстової інформації, і побудови на цій базі експериментальних масивів лін-гвістичних даних й спровокувало той зріст активності в галузі корпусної лінгвістики, про який ішлося вище.

 

Технологічний стрибок створив, однак, інші, не меньш серьозні проблеми. Надмірний обсяг досліджуваних даних може й перешкоджати описанню досліджуваного феномена. Цей ефект виникає у двох випадках: по-перше, коли інформації надмірно багато, й, по-друге, коли відібраний мовний матеріал викривлює реальну картину функціонування мови відносно описуємого феномена. (Наприклад, вивчення функціонування виразу “по край-ней мере” в художніх творах Ф.М.Достоєвського потрібує аналізу більш ніж 500 вживань цього граматичного фразеологізма. Поміж тим, достатньо повне уявлення про реальну картину вживання з’являється після перегляду першіх 70-80 контекстів. Решта матеріалу не додає нічого нового (11.Баранов А.Н., Добровольский Д.О. Идиоматичность и идиоми// Вопроси языкознания, 1996, №5). Цей факт свідчить про те, що навіть потужні високо-швідкисні комп’ютери не знимають проблем планування експеріменту та прогнозування єтапу інтерпретації результатів дослідження. Таким чином, при накладанні першої й дру-гої ситуації – і матеріал занадто великий і він не відображує реальний узус – результати дослідження практично не піддаються розумному оцинюванню. В цьому сенсі дотепна метафора одного з піонерів корпусної лінгвістики У.Френсіса (12.Френсис У.И. Проблемы формирования и машинного представления большого корпуса текстов //Новое в зарубе-жной лингвистике. Вып. Х!У. Проблемы и методи лексикографии. М., 1983, С. 334-353), який порівняв процес формування корпусу зі спробою вичерпати океан цеберкою, не здається значним перебільшенням.

 

Закінчуючи перший етап екскурсу в історію виникнення та становлення корпусної лін-гвістики, слід зазначити ще один момент. Дуже швидко вчені переконалися, що саме по собі зібрання текстів дає дуже небагато можливостей щодо виконання цілеспрямованих досліджень мовного матеріалу. Постала необхідність мати тексти, в яких певні мовні фак-ти були б позначені належним чином, тобто “промарковані”, “анотовані”. Саме макруван-ня (розмітка, кодування, лінгвістичне анотування) текстів стало відмінною рисою лінг-вістичних корпусів від просто повнотекстових баз даних, яки, безумовно, відіграли роль основної технологічної передумови створення корпусів. Але якщо завдання розробки сис-теми маркування було досить давно розв’язане, а засоби стандартизовані, проблема авто-матичного, або навіть лише автоматизованого маркування лінгвістичних фактів у велико-му текстовому масиві виявилася доволі складною. І залежить вона від будови кокретної мови. Переваги сучасних інформаційних технологій полягають в мінімізації “ручної” пра-ці у процесі створення корпусів. Таким чином на сьогодня проблема автоматичного аноту-вання текстів за різними критеріями, залишається актуальною. Адже приписування грам-матичних, орфоепічних та інших параметрів вручную десяткам мільонів слів корпусу є нейздісненним.

 

Така постановка питання висуває доволі нові завдання перед лінгвістичною наукою. Проблема розташована у площині побудови формалізованих моделей лінгвістичної ком-петенції, апробації та веріфікації ціх моделей та створення на їхній основі ефективного ПЗ.

 

В наступних лекцях ми висвітлемо питання, пов’язані з визначенням поняття “корпус-ної лінгвістики”, зробимо спробу виділити системні ознаки корпусної лінгвістики як га-лузі прикладної лінгвістики, виявити об’єкт та предмет дослідження корпусної лінгвіс-тики як наукової дисципліни, а також розглянемо загальні принципи побудови лінгвіс-тичних корпусів з використанням сучасних комп’ютерних технологій, а саме:

- сформулюємо загальні вимоги до корпусу даних з точки зору користувача;

- розглянемо досвід створення корпусів даних для різноманітних дослідницьких проєктів.

 

Лекція 2 - 3