Лекція 3. Терміни та користувальницьки вимоги до лінгвістичного корпусу.

 

Розглянемо основні вихідні поняття та терміни корпусної лінгвістики. Перше з них – проблемна область(ПРО). Під проблемною областью ми розуміємо область реалізації мовної системи, яка містить феномени, котрі необхідно описати. Для конкретного корпусу даних вона може бути надмірно великою або малою – все залежить від об’єкту аналізу. Суттєво мати на увазі той факт, що ПРО має в ідеалі два виміри: мовний й мовленневий. Мовленне-вий репрезентований мовленневимі реалізаціями, але мовний вимір проявляеться в існу-ванні можливості появи інших вживань, які доповнюють масив вже існуючих реалізацій. Це є цілком природним, оскількі навряд чи можливо зафіксувати, зібрати “потенцію”, “можливість”. Із суто практичної точки зору ПРО частіше всього являє собою множину даних, обробка якіх є ускладненою тому, що мовних реалізацій надто багато.

 

На відміну від ПРО, корпус даних (КД) має тількі один вимір – мовленнєвий, оскількі він сам по собі не володіє потенціею продукування своїх складових. Проте це не означає, що КД не може бути використаним для реконструкції мови як системи. Це, навпаки є однією із головних задач лінгвістичного дослідження на базі корпусу. (КД) – це деяка вибірка із проблемної області, яка сформована за певними принципами.

Тому одиниця зберігання (ОЗ) беспосередньо залежить від того, за якими підставами виконана вибірка. ОЗ – це деяка сукупність природньомовних висловлювань ПРО, до якої зіставлене одне описання на певної метамові, яка є визначеною процедурою формування корпусу. Це можуть бути слова, короткі фрази, синтагмі, речення. Якщо корпус побудован для синтаксичного аналізу, він повинен містити цілі тексти або ії достатні фрагменти.

ОЗ корпусу назв газетних дописів повинна була б містити саму назву та сукупність дескрипцій про те, із якої газети була взята назва, рубрика, де була видана стаття, коли вийшла газета та іншу необхідну інформацію. Сукупність описань ОЗ формує певну множину, по якої можна робити висновки про репрезентативність вибірки – які газети представлені, як формувалась вибірка за часовим параметром, статті яких рубрик відібрані тощо.

Корпус текстів (КТ) – це вид корпуса даних, одиницями якого є тексти, або їх достатньо значні фрагменти, які містять, наприклад, деякі повні фрагменти макроструктури текстів даної ПРО.

На завершення цього блоку – декілька міркувань про типи корпусів текстів.

Дослідницькими корпусами вважають такі корпуси, які призначені здебільшого для вивчення різноманітних аспектів функціонування мовної системи. Вони конструюються не post factum, тобто, після проведення певного дослідження, або деяких припущень, а виключно до його проведення. Цей тип корпусів орієнтован на широкий клас лінгвістичних задач. Не спеціфікованість задачи потрібує використання пропорційного звуження, що є, насамперед, найбільш простим засібом забеспечити репрезентативність вибірки.

Ілюстративні корпуси створюються після проведення наукового дослідження: їхня мета не стількі виявити нові факти, скількі підтвердити, або обгрунтувати вже отримані результати. Таки корпуси не є коректним відображенням ПРО. Вони містять лише те, що достатньо для ілюстрації описуваного феномена. Типовий приклад – “Путеводитель по дискурсивным словам русского языка (Баранов, Плунгян, Рахилина, 1993), в якому семантичний аналіз часток й виделення значення супроводжуються значним текстовим матеріалом, який дозволяє читачеві перевірити запропоновані семантичні інтерпретації.

Динамічні й статичні КТ. З початку КТ створювались як статичні формування, які відображують певний часовий стан мовної системи. Типовими представниками цього виду корпусів є авторськи корпуси – колекції текстів пісьменників. Однак значна частина лінгвістичних, але й не тільки лінгвістичних задач, вимагає виявлення функціональних феноменов на часової шкалі – накштальт, зміни значення слів, частоти використання тих чи інших синтаксичних конструкцій тощо. В існуючий літературі такі корпуси дістали також назви моніторних (термін “моніторний” безпосередньо звязаний з ідеєю лінгвістичного моніторінгу. Див. Основи “Політичної лінгвістики”).

Особливості сборки моніторних КТ полягає у тому, що вони не передбачають раз і назавжди заданного набору текстів. В ході заздалегідь фіксованого проміжку часу відбу-вається оновлення і/або доповнення множини текстів корпуса.

Спеціфіка вживання динамічного корпусу полягає у тому, що користувач при про-веденні дослідження може виділити із загального генерального корпусу робочий корпус, якій містить лише частину текстів генерального корпусу. Як динамічний корпус був по-будований Бірмінгемський корпус англійської мови, корпус російської сучасної публіціс-тики тощо.

Корпуси параллельних текстів. В наукових та практичних цілях, а саме при викла-данні іноземних мов, формуються корпуси параллельних текстів. За своєю структурою вони являють собою підмножину текстів на мові-джерелі й одне або декілька підмножин текстів, які репрезентують переклади текстів мови-джерела на мови-цілі. Наприклад, анг-лійський текст “Гайовати” Генрі Лонгфелло та його переклади на українську, російську, французьку та німецьку мови можуть сформувати такий корпус або бути частиною біль-шого корпусу параллельних текстів.

Спосіб представлення й зберігання корпусу даних (КД).

Найбільший інтерес мають ті способи, які спираються на сучасні комп’ютерні техно-логії зберігання і обробці даних. Для подальшого викладання важливо підкреслити різ-ницю між двома головними спососбами репрезентації – неструктурованим текстовим фор-матом зберігання (запис графем текста в ASCI-кодах) та структурованим форматом збе-рігання (текст із спеціальной розміткою). До останнього можна віднести також представ-лення даних у форматах БД різного типу.

Поріг відображення. Оскількі корпус даних є звуженням проблемної області, то ціл-ком зрозуміло, що за умови “пропорційного” звуження деякі частини проблемної області залишаються поза корпусом даних. Візмемо простий приклад. Нехай в проблемної області міститься 20 контекстів, а в корпусі даних повинна бути четверта частина – 5 контекстів. Контексти є прикладами реалізації різних синтаксичних феноменов: в десяти контекстах представлені прості речення, а у вісьми – складні. Два останні контексти містять приклади парцеляції. В корпусі даних один контекст відповідає чотирьом контекстам проблемної області. Це означає, що контексти парцеляції за пропорційним звуженням в чотири рази не потрапляють в корпус даних. Співвідношення між корпусом даних й проблемною областю за умовами пропорційного скорочення будемо йменувати порогом відображення. Чім віще поріг, тим більш вирогідність того, що деяки феномени ПРО, для яких характерна порівняно низька частота, не потраплять до корусу даних.

Параметрізація ПРО. Звуження ПРО до дослідницького корпусу грунтується на виділенні деяких характеристик текстів ПРО, котрі релевантні у відношенні до передбаченого дослідження. Сукупність ціх характеристик (їх можливі комбінації) створює багатовимірну матрицю, яка є основою для відбору текстів в корпус. Нерідко експертна оцінка використовується для оцінювання релевантних параметрів. У.Френсіс, описуя історію створення Бкорпусу, підкреслює, що на етапі планування робот були зібрані знані експерти в галузі конструювання корпусів (за участю Р.Куірка, Ф.Гоува, Дж.Керола), які й сформулювали головні принципи параемтризації проблемної сфери і структуру корпусу [Френсіс 1983б с.344].

Вимоги до корпусу текстів з точки зору користувача.

Корпус даних, якій є відображенням ПРО, повинен поєднувати найбільш суперечливі вимоги. Через те що послідовне дотримування будь-якоі з вимог призводить до руйнування корпусу, необхідно дотримуватись балансу між ними. Стратегія побудови корпусу формується як раз із того, як поєднати різноманітні вимоги.

Репрезентативність - є найважливішою властивістю корпусу текстів по відношенню до ПРО. Під репрезентативністю ми розуміємо властивість корпусу текстів відбивати всі властивості ПРО, релевантні до даного типу лінгвістичного дослідження, в певної пропорції, яка визначається частотой явища в ПРО. Іншими словами, частота явища в корпусі повинна бути близька частоті цього ж явища в ПРО. Така вимога орієнтує “сборника” корпусу текстів на спеціалізацію продукту якій розробляється за рувневою тематикою: фонетичні, морфологічні, синтаксичні, лексичні, текстові та ін. корпуси.

Вимога репрезентативності в гайбільш спрошеному форматі відьивається в пропорційном звуженні ПРО. В такому випадку говорять про “пропорційну стратегію” формування корпусу.

Повнота. Якщо репрезентативність вказує на пропорційне відображення ПРО в корпусі даних, то за певними умовами деякі редевантні явища зникають при підвищенні порогу відображення. Саме повнота вимагає врахування релевантних явищ, навіть коли це не відповідає ідеє пропорційного звуження. Вимога повноти виникає в тих випадках, коли конструктор корпусу приблизно розуміє, що йому треба шукати. В такій сітуації дослід-ницький корпус більш схожий на ілюстративний.

Економічність. Корпус текстів не повинен чітко відбивати особливості ПРО і, таким чином, бути підмножиною текстів ПРО. Він повинен суттєво відрізнятися від останньої за об’ємом. В загальному випадку, чим економічнійший корпус, тим вище поріг відображен-ня. В той же час для дослідницьких корпусів економія не повинна бути реалізована за ра-хунок репрезентативності: статистичні пропорції повинні біти адекватно враховані.

Структурізація матеріалу. Конструюванню корпусу передує зісьавлення опису да-них із корпусом. Опис даних містить одиниці зберігання, які можуть бути важливими ко-ристувачеві. Состав одиниць зберігання не повинен містить неоднозначності будь-яких типів, наприклад, займенників, для котрих неможливо відновити антецедент тощо.

Комп’ютерна підтримка. В конструюванні корпусів необхідне досить повне ПЗ комп’ютерної підтримки. Це, перш за все, програми з обробки даних, які забеспечують функції формування конкордансів, статистичної інвентарізації, автоматичної словникар-ської обробки, лематизації.