Лекція 6. Проблема маркування та кодування текстів

6.1. Історія пробоеми маркування текстів.

Сьогодні розробники більшості лінгвістичних корпусів широко застосовують пропозиції та стандарти двох консорціумів: TEI (Text Encoding Initiative),- http://www.tei.-c.org/ ,- та CES (Corpus encoding Standard),- http:www.cs.vassar.edu/CES/. Перш ніж розглядати ці настанови, котрими керувалися організатори згаданиз вище консорціумів та краще розуміти системні принципи розмітки текстів у ЛК, висвітлимо історичний аспект розвитку систем маркування, які можна вважати прообразами стандартів, які були запропоновани TEI та CES.

Історія компютерного опрацювання текстів являє собою основні чинники розвитку методів та засобів їх відображення на зовняшніх пристроях вводу-виводу (перфоратор, приймач перфокарт, дісплей, друкувальний пристрій тощо). Вимога представлення текстів на пристроях виводу у формі, котра повністю збігається з друкованою, призвела до необхідності вводити до елементів внутрішнього (машинного) представлення документів спеціальні коди, які дозволили б виконати згадане зовнішнє відображення. Зазначені коди були запропоновани ще у 60-х роках минулого століття і являли собою спеціалізовані по-мітки у машинному представленні текстів документів, наприклад, ‘’heading’’, ‘’paragraph’’ тощо, за допомогою яких оператор, що вводим текст до компютера, забеспечував виділен-ня певних значущих частин, фагментів, підрозділів тексту. Було створено чимало засобів кодування зазначеного типу, тому що на той час ще не існувало единого підходу до розмітки й кодування документів.

William Tunnicliffуб голова одного з комітетів асоціяції Graphic Communication Association (GCA) одним із перших запропонував відокремити зміст документа від його формату, виділивши в документі два основних компоненти – інформаційний та форматний. Паралельно з розробками Танікліфа й приблизно в той же час книжковий дізайнер з Нью-Йорку Stanley Rice запропонував ідею універсального каталогу параметризованих міток видавничої структури (editorial structure). Назва цього документу – Universal Catalog of Parameterized ‘’editorial structure’’ tags. Директор GCA Norman Scharf, ознайомившись з ідеєю Райса, започаткувавв на її базі проєкт загального кодування (Generic Code Project) в одному із комітетів GCA. Цей комітет розробив загальну концепцію кодування документів – ‘’GenCode concept’’, в якому було визначено, що для різних типів документів треба мати різні типи й набори узагальнених кодів розмітки. При цьому передбачалась можливість «вкладення»: для малих документів було забеспечено можливість їх визначення як внутрішніх елементів більших документів. Основнимі положеннями цієї концепції є такі:

- неможливо описати всю множину документів єдиним набором кодів розмітки;

- мова розмітки має бути описовою, а не процедурною;

- мова розмітки повинна враховувати ієрархічну структуру документа.

І справді, в будь-якому документі можна визначити ієрархічну структуру, що зумовлює необхідність для кожного елемента введеної структури зарезервувати його індивідуальний елемент розмітки – «тег». Кожен із тегів ідентифікує певний компонент документа, в якому виконується операція розмітки. У такий спосіб повинна досягатись платформенна та програмна незалежність документів – у будь-якому апаратно-програмному середовищі вони відображатимуться на пристроях втводу однаково. У ході виконання проєкту було організовано комітет GenCode Committee,? Який відіграв суттєву роль у розвитку стандарту узагальненої мови розмітки документів – SGML (www.w3org/MarkUp/SGML/), котрий залішається базовим для всіх систем маркування до нашіх днів.

Історія SGML почалася з 1969 року, коли Charles Goldfarb із IBM, разом з Мошером і Лурьє, розробив першу мову маркування документів – GML, – Generalized Markup Language,- систему, яка дозволяла здійснювати рудагування та форматування текстів, а також пошук у них маркованих фрагментів, та їх оформлення у вигляді окремих документів. Ця мова бізувалася на загальних принципах кодування, запропонованих ще Райсон та Танікліфом. Але в GML було реалізовано концепцію типу документа (формально визначеного шаблону, що описує схему внутрішньої побудови подібних документів) та вкладених одна в одну структур. Він не залежав ні від компютерної платформи, ні від операційної системи.

Амеріканський національний інститут стандартизації на основі GML розробив національний стандарт маркування, який і отримав назву – SGML.

6.2. Принципи SGML та приклад його застосування.

Можемо зазначити, що узагальнення досвіду компютерного опрацювання текстів привело до уявлення про текст, як про ієрархію обєктів змісту, що дозволило формалізувати процес опису такої ієрархії у вигляді стандарту SGML. Кожному SGML-елементові приписується певний тип і, крім того, він може містити додаткову інформацію у вигляді набору поійменованих атрибутів. Структура стандарту тексту підкоряється певним обмеженням: регламентується набір можливих типів елементів, їх атрибутивний склад, ієрархія та послідовність, тобто які елементи і в якій послідовності можуть входити до складу даного елементу. Зазначені обмеження утворюють певний набір правил інтерпретації SGML-тегів, який назівається DTD (Document Type Definition). Таким чином, кожному тексту, розміченому тегами згідно цього стандарту, відповідає його DTD-набір декларативних визначень з доситьпростим синтаксисом.

В якості самостійного завдання проробіть розмітку текстового документа – вірша «Місяць» Степана Руданського, зроблений одним із авторів колективної монографії Мовно-Інформаційного центру «Корпусна лінгвістика».

 

6.3. Розвиток SGML в якості спеціалізованих мов розмітки HTML, XML, XHTML, MathML, ChemML, UML.

З метою спрощення процедур маркування було розроблено цілу низку спеціалізованих мов розмітки текстів, кожна з яких підтримує лише певні типи документів.

Так мови HyperText Markup Language (HTML), eXtensible Markup Language (XML) і eXtensible HTML (XHTML) призначені для формування документів, що поширюються через мережу World Wide Web. Саме мова HTML для передачи документів у мережі за допомогою протоколу HTTP