Технологии информационных хранилищ
Среда распределенных вычислений
Распределенная среда обработки данных
В СУРБД используется комбинация централизованного и локального способов хранения данных.
Система управления распределенными базами данных – система управления базами данных, содержимое которых располагается в нескольких абонентских системах информационной сети.
Распределенная обработка данных – методика выполнения прикладных программ группой систем. При этом пользователь получает возможность работать с сетевыми службами и прикладными процессами, расположенными в нескольких взаимосвязанных абонентских системах.
Распределенная обработка данных
Didtributed Data Processing (DDP)
Система управления распределенными базами данных (СУРБД)
Distributed dataBase management system (DDBMS)
Distributed Computing Environment (DCE)
Распределенная среда обработки данных - технология распределенной обработки данных, представляющая собой стандартный набор сетевых служб для выполнения прикладных процессов, рассредоточенных по группе абонентских систем (по гетерогенной сети). Функции распределенной среды включают:
- службу каталогов, позволяющую клиентам находить серверы;
- службу интерфейса многопоточной обработки;
- службу удаленного вызова процедур;
- службу обслуживания файлов;
- службу безопасности данных;
- службу времени, синхронизирующей часы в абонентских системах.
Технологии информационного хранилища (Data Warehousing) обеспечивают сбор данных из существующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений.
К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС (бухгалтерский учет, финансовый анализ, кадры, расчеты с поставщиками и покупателями и т.д.).
К внешним базам – любые данные, доступные по интернету и размещенные на web-cepвеpax предприятий-конкурентов, правительственных и законодательных органов, других учреждений.
Данные информационных хранилищ могут размещаться не только на сервере, но и на вторичных устройствах хранения.
Технология информационных хранилищ стала возможной после появления мейнфреймов и вторичных устройств – оптических устройств хранения данных с высокой емкостью. Среди них можно выделить CD-ROM (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски, стираемые и перезаписываемые), оптические библиотеки со сменой дисков вручную, библиотеки-автоматы с автоматической сменой дисков (так называемая технология Jukebox).
Для размещения и доступа к данным на таких устройствах разработан ряд файловых систем. Наиболее используемые технологии реализуют системы HSM (Hierarchical Storage Management) и DM (Data Migration). HSM реализует технологии иерархического хранилища, Data Migration – миграции данных.
HSM - система создает как бы «продолжение» дискового пространства файлового сервера на вторичных устройствах (библиотеках-автоматах), доступного приложениям.
При конфигурации HSM указывается размер пространства на сервере, отводимого под буфер для обмена с оптическими библиотеками. Как только это пространство становится занятым, и требуются данные из оптической библиотеки-автомата, реализуется алгоритм миграции данных:наименее используемые файлы с сервера переносятся в библиотеку-автомат, освободившееся пространство передается буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к файлу, перенесенному в библиотеку – автомат, HSM повторяет алгоритм миграции.
Для доступа к информационным хранилищам требуются технологии, удовлетворяющие следующим условиям:
• малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй – ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных – существенна;
• высокая пропускная способность Для обеспечения сбалансированной нагрузки требуется скорость передачи не менее 100 Мега бит/сек;
• надежность.
• возможность работы на больших расстояниях, так как серверы кластера могут быть удалены друг от друга.
Всем этим требованиям .удовлетворяет АТМ-технология, технологии Fast Ethernet, Fibre Channel и др.
Приложениям клиентов информационное хранилище обеспечивает выбор требуемой им информации по запросам. Запросы клиентов объединяются в распределенные транзакции.
Использование информационных хранилищ дает существенный выигрыш по производительности в системах поддержки принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных. Сами системы на базе информационных хранилищ называют транзакционными системами OLTP (On-Line Transaction Processing).
Для описания и управления данными в информационном хранилище используется метабаза.Мета – приставка, указывающая на то, что объект относится к более высокому уровню абстракции. Метабаза содержит метаданные, которые описывают, как устроены данные информационного хранилища, частоту изменений данных в источниках, источники данных (возможны ссылки на распределенные базы, размещенные на серверах с другими платформами), кто и как может пользоваться данными, права доступа и др.
Рассмотрим три типа архитектуры информационных хранилищ: витрины данных, двух и трехуровневые архитектуры.
Витрины данных- небольшие хранилища с упрощенной архитектурой, предназначенные для хранения части данных информационного хранилища с целью снятия нагрузки с основного информационного хранилища. В основном витрины содержат ответы на конкретный ряд вопросов, например, данные АРМ сотрудников организации. Информация в разных витринах может дублироваться.
Двухуровневая архитектураинформационного хранилища (рис. 3.2) обеспечивает ретроспективные запросы (запросы данных за прошлые годы), анализ тенденций, поддержку принятия стратегических решений. Они ориентированы на оперативные базы организации и внешние источники, доступные по интернету.
Трехуровневая архитектураинформационного хранилища обеспечивает наличие информационного хранилища и витрин данных (рис. 3.3) За счет использования витрин данных ускоряется обслуживание и увеличивается число пользователей по сравнению с двухуровневой архитектурой.
Примерами информационных хранилищ могут служить Oracle VLM, разработанная фирмами Oracle и Digital, Red Brick Warehouse 5.0 корпорации Red Brick Systems, Business Information Warehouse и др.
Поскольку кэш-память базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с «большой» системной областью памяти LSGA.
Технологию VLM можно рассматривать как альтернативу использованию SMP (мультипроцессорных систем), получая выигрыш в производительности.
В настоящее время также значителен рост интереса в области многомерных аналитических хранилищ данных, часто объединяемых под единым названием оперативной аналитической обработки (On-Line Analytical Processing - OLAP). Учитывая, что подобные хранилища предназначены для хранения многолетней информации, одной из специфических задач, выполняемых в процессе эксплуатации в аналитических хранилищах, является анализ разреженности куба и оптимизации технологии его хранения. Кроме того, производится расчет промежуточных агрегатов, которые позволяют значительно оперативнее представлять данные по запросу.