Технологии информационных хранилищ

Среда распределенных вычислений

Распределенная среда обработки данных

В СУРБД используется комбинация централизованного и локального способов хранения данных.

Система управления распределенными базами данных – система управления базами данных, содержимое которых располагается в нескольких абонентских системах информационной сети.

Распределенная обработка данных – методика выполнения прикладных программ группой систем. При этом пользователь получает возможность работать с сетевыми службами и прикладными процессами, расположенными в нескольких взаимосвязанных абонентских системах.

Распределенная обработка данных

Didtributed Data Processing (DDP)

Система управления распределенными базами данных (СУРБД)

Distributed dataBase management system (DDBMS)

Distributed Computing Environment (DCE)

Распределенная среда обработки данных - технология распределенной обработки данных, представляющая собой стандартный набор сетевых служб для выполнения прикладных процессов, рассредоточенных по группе абонентских систем (по гетерогенной сети). Функции распределенной среды включают:
- службу каталогов, позволяющую клиентам находить серверы;

- службу интерфейса многопоточной обработки;
- службу удаленного вызова процедур;
- службу обслуживания файлов;
- службу безопасности данных;
- службу времени, синхронизирующей часы в абонентских системах.

Технологии информационного хранилища (Data Warehousing) обеспечивают сбор данных из сущест­вующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений.

К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС (бухгалтерский учет, финансовый анализ, кадры, расчеты с поставщиками и покупателями и т.д.).

К внешним базам – любые данные, доступные по интернету и размещенные на web-cepвеpax предприятий-конкурентов, правительственных и законодательных органов, других учреждений.

Данные информационных хранилищ могут размещаться не только на сервере, но и на вторичных устройствах хранения.

Технология информационных хранилищ стала возможной после появления мейнфреймов и вторичных устройств – оптических устройств хранения данных с высокой ем­костью. Среди них можно выделить CD-ROM (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски, стираемые и перезаписываемые), оптические библиотеки со сменой дисков вручную, библиотеки-автоматы с автоматической сменой дисков (так называемая технология Jukebox).

Для размещения и доступа к данным на таких устройствах разработан ряд файловых систем. Наиболее используемые технологии реализуют системы HSM (Hierarchical Storage Management) и DM (Data Migration). HSM реализует технологии иерархического хранилища, Data Migration – миграции данных.

HSM - система создает как бы «продолжение» дискового пространства файлового сервера на вторичных устройствах (библиотеках-автоматах), доступного приложениям.

При конфигурации HSM указывается размер пространства на сервере, отводимого под буфер для обмена с оптическими библиотеками. Как только это пространство стано­вится занятым, и требуются данные из оптической библиотеки-автомата, реализуется алгоритм миграции данных:наименее используемые файлы с сервера переносятся в библиотеку-автомат, освободившееся пространство передается буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к файлу, перене­сенному в библиотеку – автомат, HSM повторяет алгоритм миграции.

Для доступа к информационным хранилищам требуются технологии, удовлетворяющие следующим условиям:

малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй – ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных – существенна;

высокая пропускная способность Для обеспечения сбалансированной нагрузки требуется скорость пе­редачи не менее 100 Мега бит/сек;

надежность.

возможность работы на больших расстояниях, так как серверы кластера могут быть удалены друг от друга.

Всем этим требованиям .удовлетворяет АТМ-технология, технологии Fast Ethernet, Fibre Channel и др.

Приложениям клиентов информационное хранилище обеспечивает выбор требуемой им информации по запросам. Запросы клиентов объединяются в распределенные транзакции.

Использование информационных хранилищ дает существенный выигрыш по про­изводительности в системах поддержки принятия решений, в системах обработки большо­го числа транзакций с большим объемом обновления данных. Сами системы на базе ин­формационных хранилищ называют транзакционными системами OLTP (On-Line Transaction Processing).

Для описания и управления данными в информационном хранилище используется метабаза.Мета – приставка, указывающая на то, что объект относится к более высокому уровню абстракции. Метабаза содержит метаданные, которые описывают, как устроены данные информационного хранилища, частоту изменений данных в источниках, источники данных (возможны ссылки на распределенные базы, размещенные на серверах с дру­гими платформами), кто и как может пользоваться данными, права доступа и др.

Рассмотрим три типа архитектуры информационных хранилищ: витрины данных, двух и трехуровневые архитектуры.

Витрины данных- небольшие хранилища с упрощенной архитектурой, предна­значенные для хранения части данных информационного хранилища с целью снятия на­грузки с основного информационного хранилища. В основном витрины содержат ответы на конкретный ряд вопросов, например, данные АРМ сотрудников организации. Инфор­мация в разных витринах может дублироваться.

Двухуровневая архитектураинформационного хранилища (рис. 3.2) обеспечивает ретроспективные запросы (запросы данных за прошлые годы), анализ тенденций, под­держку принятия стратегических решений. Они ориентированы на оперативные базы ор­ганизации и внешние источники, доступные по интернету.

Трехуровневая архитектураинформационного хранилища обеспечивает наличие информационного хранилища и витрин данных (рис. 3.3) За счет использования витрин данных ускоряется обслуживание и увеличивается число пользователей по сравнению с двухуровневой архитектурой.

Примерами информационных хранилищ могут служить Oracle VLM, разработанная фирмами Oracle и Digital, Red Brick Warehouse 5.0 корпорации Red Brick Systems, Business Information Warehouse и др.

Поскольку кэш-память базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с «большой» системной областью памяти LSGA.

Технологию VLM можно рассматривать как альтернативу использованию SMP (мультипроцессорных систем), получая выигрыш в производительности.

В настоящее время также значителен рост интереса в области многомерных аналитических хранилищ данных, часто объединяемых под единым названием оперативной аналитической обработки (On-Line Analytical Processing - OLAP). Учитывая, что подобные хранилища предназначены для хранения многолетней информации, одной из специфических задач, выполняемых в процессе эксплуатации в аналитических хранилищах, является анализ разреженности куба и оптимизации технологии его хранения. Кроме того, производится расчет промежуточных агрегатов, которые позволяют значительно оперативнее представлять данные по запросу.