Активность данных.

Размер базы (файла).

Характеристики совокупностей данных (базы, файла).

Базы, файлы данных.

 

Ранее рассмотрены различные структуры данных, но далеко не все, не все виды и термины.

В качестве целостной структуры, отражающей некоторый объект, назвали структуру данных - запись. Но, как правило, в системах обработки данных речь идет о некотором классе объектов. Чтобы описать совокупность информации о некотором классе объектов используют термины база данных, файл, набор данных и другие, вкладывая в них близкое по смыслу содержание.

База данных (БД) - это совокупность взаимосвязанных данных определенной структуры, отражающих и представляющих информацию о некотором классе объектов реального мира.

Файл - множество аналогично построенных записей.

Набор данных - это поименованная совокупность логически связанных данных, организованных по определенным правилам, имеющая управляющую информацию и доступная системе программирования.

Проиллюстрировать взаимосвязь объектов реальности и сведений о них, отображаемых в информационных объектах, можно следующим их сопоставлением.

 

Объекты реальности. Информационные объекты.

 

Совокупность объектов - База, файл

Объект - Запись

Свойство, характеристика объекта - Поле (реквизит, данное)

 

{Объект 1,..., Объект n} <-> {база, файл, набор}

объект m <-> запись m

 
 


поле группа запись база, файл

 

характеристики характеристики характеристики характеристики

поля группы записи базы, файла

 

 

 

Базы данных (файлы, наборы данных) как некоторые совокупности данных обладают определенными характеристиками. Ряд характеристик аналогичен рассмотренным ранее, а ряд присущ базам данных как специфичной совокупности данных. Перечислим основные характеристики:

1) Наименование базы (файла),

2) Идентификатор (имя),

3) Структура (схема базы, логическая, физическая структура),

4) Класс объектов,

5) Размер (объем) базы (файла),

6) Целевой характер использования информации:

а) НСИ, классификаторы,

б) оперативная, постоянная,

в) входная, выходная,

г) первичная, промежуточная, результирующая,

7) Активность данных,

8) Выборочность,

9) Изменчивость,

10) Избыточность (дублирование),

11) Атрибуты (в том числе, атрибуты доступа),

12) и другие характеристики.

 

 

Объем (размер) базы - это сумма длин всех полей всех записей базы данных.

V = ,

где - длина поля j,

- количество полей типа j в записи i,

m - количество полей в записи,

n - количество записей.

 

В зависимости от типа структуры данных могут быть различные формулы вычисления объема базы данных или файла.

Обычно, для упрощения расчетов объема базы вычисляют средний размер одной записи и умножают его на количество записей в базе данных.

В проектировании и реализации информационных систем оценка объема базы данных является важнейшим критерием. Оценка имеет два значения - оценка объема базы на основе логической структуры и другая оценка объема базы, который база может занять на магнитном носителе.

При построении логической структуры базы данных вычисляют:

- количество полей в записи и размер записи;

- количество записей в базе;

- число байтов в базе (основной объем базы).

Привязка к физической структуре, т.е. отображение в пространство хранения даёт оценку объёма памяти, которая может значительно отличаться от оценки при логическом проектировании.

Объём физической структуры определяется в единицах пространства хранения данных и зависит от:

- структуры данных, ее физическая реализация;

- методов доступа;

- применяемых технических средств;

- и т.д.

Объем измеряется в байтах, цилиндрах, дорожках и т.п.

Для примера отметим, что при физической реализации базы данных объем, рассчитанный на основе логической структуры, увеличивается, например, из-за:

- наличия служебных полей (ссылки, указатели, коды записей, индексы и др.);

- физических промежутков при размещении информации на носителе;

- других причин.

Пределы увеличения объема базы (реже уменьшения) могут быть различными. Как правило, это в пределах 1-2 раза, в среднем 1,5 раза.

Для примера рассмотрим одну и ту же группу данных, представленную в разных структурах - линейной и иерархической, и имеющих соответственно разные объемные оценки. Пусть это будут поля “Узел” и “Деталь”, которые содержат информацию о некоторых устройствах, т.е. узлах и деталях. В узел может входить несколько деталей. Пусть для некоторого узла У1 имеется 10 деталей Д1-Д10, входящих в узел У1. Подсчитаем объемы данных для этих конкретных значений.

 

 

Линейная структура: Иерархическая структура:

 

 

А1 У1
   
А2 Д1
А3 Д2
А4 Д3
А5 Д4
А6 Д5
А7 Д6
А8 Д7
А9 Д8
А10 Д9
А11 Д10
 

 

У узел Д деталь
   
 
   
У1 Д1
У1 Д2
У1 Д3
У1 Д4
У1 Д5
У1 Д6
У1 Д7
У1 Д8
У1 Д9
У1 Д10

 

 

 
 

 

 


 

 

 

Длина поля У (узел) = 15,

длина поля Д (деталь) = 20,

длина поля А (адресной ссылки) = 4.

 

Размер линейной структуры Размер иерархической структуры

равен L=(15+20)*10=350 равен L=(4+20)*10+15+4=259

Обратим внимание на то, что в линейной структуре повторяется (дублируется) несколько раз значения поля “узел”. Это избыточная информация. В принципе, избыточный объем равен 15*9=135 байтам. В иерархической структуре нет дублирования поля “узел”, но вместе с тем платой за это является наличие адресных ссылок.

Итак, одни и те же данные занимают разный объем памяти в линейной и иерархической структуре (350 и 259). Соответственно и объемы баз данных, реализованных разными моделями структуры данных, будут различны.

 

Развитые СУБД (промышленные) имеют аппарат для оценки объемов информации, моделирования структур баз данных, в т.ч. имитационные и другие. Например, для широко известной СУБД IMS имеется пакет моделирования DBPROTOTYPE. Для создания информационных систем используются автоматизированные технологии проектирования структур данных - системы структурного проектирования CASE (Computer Aided System Engineering).

 

 

Активность данных - это характеристика, определяемая отношением числа обращений к структурному элементу данных к общему числу обращений к информации (базе данных, файлу) в некоторый интервал времени или единицу работы.

Активность поля - это отношение числа обращений к полю в пределах одной записи к числу обращений к полям записи.

 

 

где Rj - активность поля j,

kj - количество обращений к полю j,

ki - количество обращений к полю i,

1 =< i <= n, n - число полей записи.

Обычно активные поля располагают ближе к началу записи.

Аналогично определяется активность файла (базы):

Активность файла (базы) - это отношение числа обращений к файлу (базе) к числу обращений к совокупности файлов (баз).

Активные файлы располагают на магнитном диске ближе к его центру.

Принцип размещения данных в структуре пространства - активные данные располагают так, чтобы легче и быстрее взять, а неактивные - можно подальше.

Важное значение характеристики активности имеют для систем оперативного доступа к информации, для систем с использованием транзакций. Под транзакцией понимается единица работы в вычислительной системе, включающей в свой состав запрос, обработку данных и ответ на запрос.