Концептуальні засоби опису наочної області

Тема: Фактографічні інформаційні системи

Лекція 11

План:

 

1. Наочна область (визначення, поняття).

2. Концептуальні засоби опису наочної області.

3. Інфологічна модель “Сутність-зв'язок”

4. Підтипи і супертипи сутності

 

Поняття "Наочна область" є базисним поняттям в теорії БД і тому не має строгого визначення. Щоб з'ясувати його сенс, звернемося до понять об'єкт і предмет.

Об'єкт - це те, що існує поза нами і незалежно від нашої свідомості, явища зовнішнього світу і матеріальної дійсності.

Об'єкти потенційно володіють величезною кількістю властивостей і знаходяться в потенційно нескінченному числі взаємозв'язків між собою. Проте серед всієї безлічі властивостей і взаємозв'язків між об'єктами має сенс виділяти лише істотні, важливі з погляду споживача інформації.

Предмет - це об'єкт, що став носієм певної сукупності властивостей і що входить в різні взаємини, які представляють інтерес для споживачів інформації. Один і той же об'єкт може сприйматися різними системами як різні предмети. Таким чином, предмет - це модель реального об'єкту.

Сукупність об'єктів, інформація про яких представляє інтерес для користувачів, утворює об'єктне ядро наочної області.

У кожен момент часу наочна область знаходиться в одному із станів, який характеризується сукупністю об'єктів і їх взаємозв'язків. Якщо об'єкти утворюють об'єктне ядро, то сукупність взаємозв'язків відображає структуру фрагмента дійсності. З часом одні об'єкти зникають, інші з'являються, міняються властивості і взаємозв'язки. Проте виникаючі нові стани вважаються станами однієї і тієї ж наочної області. Таким чином, наочну область доцільно розглядати як систему, що переживає свою історію, яка складається з певної послідовності станів.Після завдання простору станів, можна розглядати в нім певні траєкторії або послідовності станів so,s...,st, у яких знаходиться наочна область в моменти часу 0,1,...,t. Члени такої послідовності не можуть бути абсолютно довільними, оскільки стан st зазвичай яким-небудь чином пов'язано з попередніми станами s(1, s...,st,. Тому наочну область можна визначити як клас всіх дійсно можливих послідовностей станів. Такі послідовності називаються траєкторіями наочної області. Сукупність всіх загальних властивостей траєкторій називається семантикою наочної області.

Оскільки об'єктне ядро довільної наочної області потенційно містить нескінченне число об'єктів, які знаходяться в потенційно нескінченній безлічі взаємозв'язків, то стає ясним, що прямий підхід до опису наочної області через опис всіх об'єктів і взаємозв'язків між ними приречений на провал. _ Очевидною альтернативою в цій ситуації є підхід до опису наочної області, що фіксує тільки те загальне, що є незмінним і характеризує ситуацію у будь-який момент часу, або, кажучи іншими словами, що відображає семантику наочної області.

Звідси витікає, що необхідні спеціальні засоби описи наочної області, які були б застосовні до будь-яких областей, досить просто інтерпретувалися в конкретному фрагменті зовнішнього світу і одночасно були точними, структурованими і осяжними (кінцевими). Пристосованість вказаних засобів для опису будь-якої наочної області означає, що вони зобов'язані бути достатньо універсальними. Для забезпечення універсальності необхідна висока спільність, абстрактність системи базисного метапоняття і правил породження нових понять, які допускають інтерпретацію в будь-якій наочній області. Через свою абстрактність засобу опису наочної області називаються концептуальними.

Тип - це поняття, об'єднуюче всі об'єкти даного типу. На відміну від об'єкту, що існує в даний момент в конкретному місці, тип не має просторово-часової локалізації. Він охоплює всі існуючі, існуючі і мислимі об'єкти, відношувані до даного типу. Типи забезпечують несуперечливе об'єднання локальних "точок зору" різних груп користувачів. Кожен тип має унікальне ім'я. Наприклад, при описі учбового процесу можуть бути введені наступні типи людей: ВИКЛАДАЧ, СТУДЕНТ, АСПІРАНТ і так далі

Вважається, що в кожному стані наочної області будь-який об'єкт має один або декілька типів. Безліч типів даної наочної області, забезпечена деякою структурою, є моделлю в математичному сенсі. Цю модель природно називати концептуальною моделлю або схемою наочної області.

Відзначимо, що різні не тільки безліч типів різних наочних областей, але і зв'язки між ними. Тому для концептуальних моделей наочних областей, мабуть, не можна вказати загальну структуру або, точніше, вказати загальну сигнатуру відносин і операцій. Проте деякі базові типи, відносини і операції доцільно включати в будь-яку концептуальну схему.

Процес проектування БД є дуже складним. По суті, він полягає у визначенні переліку даних, що зберігаються на фізичних носіях (магнітних дисках і стрічках), які достатньо повно відображають інформаційні потреби потенційних користувачів в конкретній наочній області. Проектування БД починається з аналізу наочної області і можливих запитів користувачів. В результаті цього аналізу визначається перелік даних і зв'язків між ними, які адекватно—с точки зору майбутніх споживачів — відображають наочну область. Завершується проектування БД визначенням форм і способів зберігання необхідних даних на фізичному рівні.

Весь процес проектування БД можна розбити на ряд взаємозв'язаних етапів, кожен з яких володіє своїми особливостями і методами проведення. На мал. 1 представлені типові етапи.

 

Мал. 1. Етапи проектування БД

На етапі инфологического (інформаційно-логічного) проектування здійснюється побудова семантичної моделі, що описує відомості з наочної області, які можуть зацікавити користувачів БД. Семантична модель (semantic model) — уявлення сукупності про наочну область понять у вигляді графа, у вершинах якого розташовані поняття, в термінальних вершинах — елементарні поняття, а дуги представляють відносини між поняттями.

Спочатку з об'єктивної реальності виділяється наочна область, тобто обкреслюються її межі. Логічний аналіз виділеної наочної області і потенційних запитів користувачів завершується побудовою инфологической моделі — переліку відомостей про об'єкти наочної області, які необхідно зберігати в БД, і зв'язках між ними.

Аналіз інформаційних потреб потенційних користувачів має два аспекти: визначення власне відомостей про об'єкти наочної області; аналіз можливих запитів до БД і вимог по оперативності їх виконання.

Аналіз можливих запитів до БД дозволяє уточнити зв'язки між відомостями, які необхідно зберігати. Хай, наприклад, в БД по учбовому процесу інституту зберігаються відомості про учбові групи, читані курси і кафедри, а також зв'язок «учбові группы—читаемые курси» і «читані курси — кафедры». Тоді запит про те, чи проводить деяка кафедра заняття в конкретній учбовій групі, може бути виконаний тільки шляхом перебору всіх читаних в даній групі курсів.

Зберігання великого числа зв'язків ускладнює БД і приводить до збільшення пам'яті ЕОМ, але часто істотно прискорює пошук потрібної інформації. Тому розробникові БД (адміністраторові БД) доводиться ухвалювати компромісне рішення, причому процес визначення переліку зв'язків, що зберігаються, як правило, має ітераційний характер.

Етап датологического проектування підрозділяється на логічне (побудова концептуальної моделі даних) і фізичне (побудова фізичної моделі) проектування.

Головним завданням логічного проектування є представлення виділених на попередньому етапі відомостей у вигляді даних у форматах, підтримуваних вибраною СУБД.

Завдання фізичного проектування — вибір способу зберігання даних на фізичних носіях і методів доступу до них з використанням можливостей, СУБД, що надаються.

Інфологічная модель «сутність— зв'язок» (entity-relationship model; ER-model) П.Чена є описовою (неформальну) моделлю наочної області, що семантично визначає в ній суть і зв'язки.

 

Інфологічна модель “Сутність-зв'язок”

Модель була запропонована Петером Ченом в 1976 р. На використанні різновидів ER-моделі заснована більшість сучасних підходів до проектування баз даних (головним чином, реляційних). Моделювання наочної області базується на використанні графічних діаграм, що включають невелике число різнорідних компонентів. У зв'язку з наочністю представлення концептуальних схем баз даних ER-модели набули широкого поширення в CASE-системах, що підтримують автоматизоване проектування реляційних баз даних. Базовими поняттями ER-модели є суть, зв'язок і атрибут.

Сутність - це реальний або уявний об'єкт, інформація про яке представляє інтерес. У діаграмах ER-модели суть пред-ставляется у вигляді прямокутника, що містить ім'я суті. При цьому ім'я суті - це ім'я типу, а не конкретного об'єкту - екземпляра цього типу. Кожен екземпляр суті повинен бути відмітний від будь-якого іншого екземпляра тієї ж суті.

Зв'язок - це асоціація, що графічно зображається, встановлюється між двома суттю. Ця асоціація завжди є бінарною і може існувати між двома різною суттю або між суттю і їй же самій (рекурсивний зв'язок). У будь-якому зв'язку виділяються два кінці (відповідно до пари зв'язуваної суті), на кожному з яких указується ім'я кінця зв'язку, ступінь кінця зв'язку (скільки екземплярів даної суті зв'язується), обов'язковість зв'язку (тобто чи будь-який екземпляр даної суті повинен брати участь в даному зв'язку).

Зв'язок представляється у вигляді лінії, що зв'язує дві суть або ведучу від суті до неї ж самої. При цьому в місці "стиковки" зв'язку з суттю використовуються триточковий вхід в прямокутник суті, якщо для цієї суті в зв'язку можуть використовуватися багато екземплярів суті, і одноточечний вхід, якщо в зв'язку може брати участь тільки один екземпляр суті. Обов'язковий кінець зв'язку зображається суцільною лінією, а необов'язковий - переривистою лінією.

Як і суть, зв'язок - це типове поняття, всі екземпляри обох пар зв'язуваної суті підкоряються правилам скріплення.

На мал.2 приведений приклад зображення сутністі і зв'язку між ними.

 

Мал. 2. Приклад зв'язку між суттю

 

Дана діаграма може бути інтерпретована таким чином: Кожен СТУДЕНТ вчиться тільки в одній ГРУПІ; Будь-яка ГРУПА складається з одного або більш за СТУДЕНТІВ. На наступному малюнку (мал. 3) зображена суть ЧОЛОВІК з рекурсивним зв'язком, що пов'язує її з нею ж самою.

Мал.3. Приклад рекурсивного зв'язку

 

Лаконічним усним трактуванням зображеної діаграми є наступна:

Кожна ЛЮДИНА є сином одного і лише однієї ЛЮДИНИ;

Кожна ЛЮДИНА може бути отцем для одного або більш за ЛЮДЕЙ ("ЛЮДИНА").

Атрибутом суті є будь-яка деталь, яка служить для уточнення, ідентифікації, класифікації, числової характеристики або виразу стану суті. Імена атрибутів заносяться в прямокутник, що зображає суть, під ім'ям суті і зображаються малими буквами. Наприклад (мал.4) :

 

Мал.4. Зображення суті з її атрибутами

 

Унікальним ідентифікатором суті є атрибут, комбінація атрибутів, комбінація зв'язків або комбінація зв'язків і атрибутів, що унікально відрізняє будь-який екземпляр суті від інших екземплярів суті того ж типу.

Як і в реляційних схемах баз даних, в ER-схемах вводиться поняття нормальних форм, причому їх сенс дуже близько відповідає сенсу реляційних нормальних форм. Відмітимо, що формулювання нормальних форм ER-схем роблять зрозумілішим сенс нормалізації реляційних схем. Ми розглянемо тільки дуже короткі і неформальні визначення трьох перших нормальних форм.

У першій нормальній формі ER-схеми усуваються атрибути, що повторюються, або групи атрибутів, тобто проводиться виявлення неявної суті, "замаскованої" під атрибути.

У другій нормальній формі усуваються атрибути, залежні тільки від частини унікального ідентифікатора. Ця частина унікального ідентифікатора визначає окрему суть.

У третій нормальній формі усуваються атрибути, залежні від атрибутів, що не входять в унікальний ідентифікатор. Ці атрибути є основою окремої суті.Ми зупинилися тільки на найважливіших поняттях ER-модели даних. До складніших елементів моделі відносяться наступні: