СИСТЕМАТИЗАЦИЯ И ХРАНЕНИЕ ИНФОРМАЦИИ.


ЛЕКЦИЯ № 10.

ТЕМА: «ТЕХНОЛОГИЯ ХРАНЕНИЯ, ПОИСКА И СОРТИРОВКИ ИНФОРМАЦИИ»

 

Кто владеет информацией, тот владеет миром. В каком виде может храниться информация, чтобы с ней было удобно работать? Потребность систематизировать, обрабатывать и хранить информацию возникла у человека очень давно. Как это ни парадоксально, но может быть и появление письменности во многом обязано стремлению человека удовлетворить эту потребность.

Появление электронных компьютеров с хранимыми программами произвело настоящую революцию в области обработки информации. Дальнейшее развитие технологии обработки информации напрямую связано с успехами в области совершенствования программ и собственно компьютеров. В XX веке человечество стало свидетелем информационного взрыва. Количество информации, которую получает человек, удваивается каждые десять лет. Если раньше систематизировались в основном только текстовые и числовые данные, то теперь стало необходимым обрабатывать практически всю информацию, которая доступна органам чувств человека. Последние достижения компьютерных технологий, включая развитие средств коммуникаций, позволяют решить эту задачу.

Однако появилась новая проблема. Оказывается сегодня не так уж сложно организовать хранение и накопление информации в электронном виде. Даже можно организовать доступ к электронному архиву, находящемуся в любой точке земного шара, используя достижения Internet-технологий. Реальной проблемой становится организация огромных архивов данных так, чтобы люди могли легко и быстро находить нужную им информацию.

Информационная система (ИС) – это программно-аппаратный комплекс, функции которого состоят в надежном хранении информации, предоставлении пользователю удобного интерфейса и, что особенно важно, выполнении специфических операций по преобразованию и поиску необходимой информации.

Информационная система позволяет облегчить труд человека, повысить качество и достоверность обработки информации. Она может храниться как в «бумажном» варианте, так и в памяти компьютера. Основу информационной системы составляют хранящиеся в ней данные. Хорошая информационная система должна предоставлять достоверную информацию в определенное время конкретному лицу с ограниченными затратами.

Объектом называется элемент информационной системы, информация о котором сохраняется в ней. Объект может быть реальным (человек, населенный пункт, какой-либо предмет) и абстрактным (событие, счет покупателя). Каждый объект обладает набором свойств, которые запоминаются в информационной системе. Свойства, характеризующие объект, называются атрибутами объекта. Каждый атрибут имеет свое имя – идентификатор. Атрибут, записанный на каком-либо носителе информации, называют элементом данных, полем данных или просто полем. При обработке данных часто встречаются однотипные объекты с одинаковыми свойствами. Совокупность объектов, обладающих одинаковым набором свойств, называется классом объектов.

Основой многих информационных систем (прежде всего, информационно-справочных систем) являются базы данных.

База данных (БД) – организованная совокупность данных, предназначенная для длительного хранения во внешней памяти ЭВМ, постоянного обновления и использования.

В большинстве случаев базу данных можно рассматривать как информационную модель некоторой реальной системы, например книжного фонда библиотеки, кадрового состава предприятия, учебного процесса в вузе и т.д. Такую систему называют предметной областью базы данных и информационной системы, в которую она входит. Один из признаков, по которому можно классифицировать базы данных, – характер хранимой информации. ФактографическиеБД содержат данные, представляемые в краткой форме и строго фиксированных форматах. Такие БД являются аналогами бумажных картотек, например, библиотечного каталога или каталога видеотеки. Другой тип баз данных —документальные БД. Здесь аналогом являются архивы документов, например, архив судебных дел, архив исторических документов и пр. В дальнейшем будем рассматривать лишь фактографические БД.

Классификация по способу хранения данных делит БД на централизованные и распределенные. Вся информация в централизованной БД хранится на одном компьютере. Это может быть автономный ПК или сервер сети, к которому имеют доступ пользователи-клиенты.Распределенные БД используются в локальных и глобальных компьютерных сетях. В последнем случае разные части базы данных хранятся на разных компьютерах.

 

 

Набор принципов, которые определяют организацию логической структуры хранения данных в базе, получив название модели данных. Модели баз данных определяются тремя компонентами:

Ø возможной организацией данных;

Ø ограничениями целостности;

Ø множеством допустимых операций.

В теории управления базами данных выделяют модели трех основных типов: иерархическую, сетевую и реляционную (табличную). Терминологической основой для иерархической и сетевой моделей являются понятия: атрибут, агрегат и запись. Под атрибутом (элементом данных) понимают наименьшую поименованную структурную единицу данных. Поименованное множество атрибутов может образовывать агрегатданных. В некоторых случаях отдельно взятый агрегат может состоят из множества экземпляров однотипных данных или, как говорят, быть элементом множества. Записью называют составной агрегат, который не входит в состав других агрегатов.

В иерархической модели все записи, агрегаты и атрибуты базы данных создают иерархически организованный набор, т.е. такую структуру, в которой все элементы связаны отношениями подчиненности и при этом любой элемент может подчиняться только одному некоторому другому элементу. Такую форму зависимости удобно изображать с помощью древоподобного графа (связанной схемы, которая состоит из точек и стрелок и не имеет циклов).

Концепция сетевой модели данных связана с именем Ч. Бахмана. Сетевой подход к организации данных является расширением иерархического. В иерархических структурах запись-наследник должен иметь одного предка; в сетевой структуре данных наследник может иметь любое число предков. Сетевая база данных состоит из набора записей и набора связей между этими записями, точнее, из набора экземпляров записей заданных типов (из допустимого набора типов) и набора экземпляров из заданного набора типов связей.

Среди достоинств систем управления данными, основанных на иерархической или сетевой моделях, может быть их компактность и, как правило, высокое быстродействие, а среди недостатков - неуниверсальность, высокая степень зависимости от конкретных данных.

Концепция реляционной модели впервые была сформулирована в работах американского ученого Е.Ф.Кодда. Отсюда происходит ее второе название – модель Кодда. В реляционной модели объекты и взаимосвязи между ними представляются с помощью таблиц. Для ее формального определения используется фундаментальное понятие отношение.