Концепція структурованого документа та SGML

Створення презентацій у середовищі МS РоwегРоint

Технологія роботи із структурованими документами у табличному процесорі MS Excel

Технологія роботи із структурованими документами у текстовому процесорі MS Word

Веб-документ як реалізація структурованого документу засобами мови HTML

Поняття про XML-мову структурованого зберігання інформації

Концепція структурованого документа та SGML

Програмні засоби роботи зі структурованими документами

ТЕХНОЛОГІЯ РОБОТИ ІЗ СТРУКТУРОВАНИМИ ДОКУМЕНТАМИ

 

 

Текст - достатньо значуще явище нашої культури. Деколи він розглядається як витвір мистецтва, для якого, як відомо, важливий не тільки зміст, але і оформлення. Для прикраси своїх текстів автори використовують різні шрифти і інші візуальні ефекти. Документи, які виникають і які застосовуються в економічній діяльності також характеризуються структурованістю, характерним стандартизованим оформленням. Способи оформлення тексту давно відомі, але як їх перенести на електронні документи? Мова розмітки, яку використовують для опису зовнішнього вигляду документа, ще не встоялась. Зараз має ходіння безліч всіляких форматів електронних документів, які не завжди можна перетворити один в інший, а необхідність у такому перетворенні виникає досить часто. Активне використання в економічній діяльності мереж і мережних технологій, глобалізація економіки потребує стандартизації методів подання електронних документів.

Електронний документ має три іпостасі, три різновиди – 1) документ, підготовлений до друку, 2)набраний в текстовому редакторі і 3)поширюваний по мережі. Хоча багато текстових редакторів і мають широкі можливості по форматуванню і розмітці документа, але до спеціалізованих програм верстки їм ще далеко. Мові ж опису документів, яка використовується для публікацій в Web, властиві більш обмежені функції по форматуванню документів.

Зараз для кожного з перерахованих різновидів електронного документу існує свій найпоширеніший формат. Для друкарських документів це PostScript - алгоритмічна мова промальовування сторінки, що інтерпретується. Ця мова розроблена компанією Adobe, він має реалізації практично на всіх платформах і сучасних принтерах. Він найточніше описує друкарську сторінку, проте PostScript-файли мають дуже великий розмір. Особливо це стосується російськомовних текстів, оскільки вони, як правило, містять опис російських шрифтів.

Розвиток всесвітньої мережі INTERNET, а точніше інформаційний бум, який не спадає впродовж останніх років, нерозривно пов’язаний з World Wide Web (WWW) – першою інформаційною гіпертекстовою службою планетарного масштабу. Кількість і доступність інформації помножені на зручність гіпертекстової організації цієї величезної бази даних зробили так, що велика кількість людей вже не уявляють своє повсякдення без INTERNET.

Гіпертекст як технологія, з його інтуїтивно зрозумілими, наближеним до людського способу мислення інтерфейсом, став одним з найефективніших способів представлення інформації. Ідеологія гіпертекстового представлення інформації дедалі поширюється на спосіб організації інтерфейсу будь-якого сучасного програмного продукту, від іграшки до системи банківського обліку.

Гіпертекст - сучасна інформаційна, комп'ютерно-підтримувана технологія організації текстових, графічних, відео- та звукових матеріалів, а також їх споживання, що відзначається двома особливостями:

1. в ній поєднуються нелінійний, асоціативно - фрагментарний та сітковий принципи репрезентації інформаційного середовища;

2. формування та вилучення потрібної інформації здійснюється шляхом вільної навігації за нелінійними зв'язками, зафіксованими в гіпертекстовому середовищі.

Гіпертекст :

1. створює можливості, як засобу представлення інформації, комбінувати структуру вихідного документа, забезпечувати їх гнучкість, автоматизувати перегляд групи документів і вивчати механізм утворення асоціативних зв'язків;

2. дозволяє здійснювати навігацію у великих базах даних, незалежно від їхнього обсягу, забезпечуючи доступ до необхідної інформації, пропонувати пошукову стратегію, побудовану з врахуванням інтересів конкретного користувача;

3. надає можливості застосовувати будь-які типи дискретних носіїв для забезпечення багатосередовищності (тексту, звуку, відео, графіки).

Для публікацій в Web використовується гіпертекстова мова розмітки HTML, яка описує не тільки зовнішній вигляд документів, але і зв'язки між ними і програмним забезпеченням. Разом з HTML з'явився і гіпертекстовий транспортний протокол - HTTP, який дозволяє передавати HTML-документи у мережі Інтернет , запускати на сервері програми і підтримувати діалог з користувачем. Завдяки гіпертекстовій технології стало можливим створювати дійсно розподілені системи з універсальним, призначеним для користувача інтерфейсом. Крім того, за розміром HTML-документ виходив не дуже великим, що важливе для мережі Інтернет. Проте з розвитком Web виявилися серйозні обмеження HTML в області представлення документів і діалогів з користувачем.

Оскільки перераховані мови орієнтовані на різні форми представлення, їх практично неможливо "зібрати" в єдину і універсальну мову. При цьому часто виникає задача підготовки однакових документів для різних форм, а перетворити текст з одного формату в інший не завжди можливо. Хоча документ, підготовлений в текстовому редакторі типу Word, можна перетворити в будь-який з перерахованих форматів, проте такі формати, як правило, важко перенести у інший текстовий редактор або платформу. Тому використовувати його як універсальний засіб підготовки документів у великій організації неможливо. Таким чином, пред'являються наступні вимоги до корпоративного засобу підготовки документів:

· переносимість на різні платформи;

· перетворення в три найпопулярніші формати документів - PostScript, Word і HTML;

· мінімальна ціна ПО.

Всім цим вимогам задовольняє узагальнена мова розмітки SGML (Standard Generalized Markup Language). Документи, підготовлені в цьому форматі, можна перетворити у всі перераховані формати, для нього є програмне забезпечення на найпоширеніших платформах, і навіть безкоштовне.

Мова розмітки SGML (Standart Generalised Markup Language, ISO 8879) була прійнята комітетом ISO у 1986 році як міжнародний стандарт для візначення незалежніх від пристроїв вводу/виводу, обчислювального середовіща методів подання текстів в електронній формі.

Поява стандарту SGML була обумовлена необхідністю сумісного використання даних різними додатками і операційними системами. Навіть в далеких 60-х роках у користувачів комп'ютерів виникало чимало проблем з сумісністю. Проаналізувавши недоліки багатьох нестандартних мов розмітки, троє учених з IBM - Чарльз Гольдфарб(Charles Goldfarb), Ед Мошер(Ed Mosher) і Рей Лорі (Ray Lorie) - сформулювали три загальні принципи, що забезпечують можливість спільної роботи з документами в різних операційних системах:

· Використання єдиних принципів форматування у всіх програмах, що виконують обробку документів.

· Спеціалізація мов форматування. Завдяки можливості побудови спеціалізованої мови на базі набору стандартних правил програміст перестає залежати від зовнішніх реалізацій і їх уявлень про потреби кінцевого користувача.

· Чітке визначення формату документа. Правила, що визначають формат документа, задають кількість і маркіровку мовних конструкцій, що використовуються в документі. Вживання стандартного формату гарантує, що користувач точно знатиме структуру вмісту документа. Зверніть увагу: йдеться не про формат відображення документа, а про його структурний формат. Набір правил, що описують цей формат, називається «визначенням типу документа»(document type definition, DTL надає користувачам механізм заміни одного рядка символів на іншу, що дозволяє визначати для різних платформ однакові спецсимволи.

SGML - Міжнародний Стандарт Всесвітньої Організації Стандартів - ISO 8879-1986: Information processing--Text and office systems--Standard Generalized Markup Language (SGML). SGML - міжнародний стандарт для визначення системно-незалежного методу маркапа. Для представлення тексту в електронному виді. Незважаючи на всю складність і глобальність поставленої мети, SGML є вкрай простим по ідеї стандартом. Ця ідея може бути представлена так:

Створити чітку і формальну систему, що визначає єдиний, головний метод для виконання дій; і, у той же час, залишити можливість для будь-яких інших методів.

Перш ніж перейти до формального опису стандарту, буде представлений неформальний опис, що фактично є перекладом стандарту.

Визначити неформально, чим насправді є SGML, досить важко. Це мова, що може бути використана, щоб побудувати інфраструктуру для обміну і довгострокового збереження інформації. Використовуючи аналогію, її можна визначити як "SGML і мистецтво збереження й обробки інформації - Розуміння значення Інформації". Таким чином, це спосіб життя після того, як ми зрозуміли, що інформацію, що ми створюємо, живе своїм власним життям і може вмерти, якщо ми не доглядаємо за нею і не годуємо її правильним образом.

SGML дотепер розглядається як формат для представлення інформації для публікації тексту друкованих документів, або як засіб представлення тих же документів на CD-ROM і т.д. Публікація – була початкова ціль стандарту, однак незабаром стало ясним, що він має набагато великий потенціал (у зв'язку з чим навіть народилася нова розшифровка акронима SGML - Sounds Great, Maybe Later (Звучить чудово, може бути, пізніше)).

SGML є метамовою. Це значить, що він призначений для опису мови, мови маркапа тексту.

Історично, слово маркап (розмітка) використовувалося для опису спеціальних позначок, що призначалися машиністу для друкування конкретного фрагменту тексту. У міру того, як форматування і друк тексту стали автоматизовані, значення терміна маркап було розширено для позначення всіх типів спеціальних маркап-кодів, що вставляються в електронний текст для керування процесом чи форматування тексту, чи іншої обробки.

Узагальнюючи цей зміст, ми визначаємо маркап, чи розмітку, як будь-який спосіб вказівки явного способу інтерпретації тексту. На тривіальному рівні, весь друкований текст розмічений у цьому змісті: пунктуація, використання заголовних букв, розташування літер на сторінці, навіть пробіли між словами можуть вважатися як деякий вид маркапа, призначення якого полягає в тому, щоб допомогти людині визначити де закінчується одне слово і починається інше, чи як інтерпретувати більш глобальні структури - такі, як заголовки, абзаци і т.д. Маркап тексту в принципі, також як і стенографія, - процес вказівки того, яким чином повинен інтерпретуватися зміст тексту.

Під мовою маркапа розуміється сукупність угод про маркап, використаних для розмітки тексту. Мова маркапа повинна визначати:

· синтаксис маркапа

· який маркап є припустимим

· який маркап необхідний

· як маркап відрізняється від тексту

· семантика маркапа

· що маркап означає.

SGML дозволяє визначити три перші, синтаксичні обмеження на маркап. Для визначення семантики використовується додатковий стандарт, наприклад HTML, TEI, CES чи іншої.

Схема маркапа, що вводиться SGML (далі просто SGML) має три основних відмінності від "класичних" схем:

· орієнтація на дескриптивний маркап,

· об‘єктно-оріентована модель,

· незалежність від конкретного фізичного представлення тексту.