Хранилища данных и базы знаний – перспектива развития ИО в управлении.

Хранилище данных {data warehouse) — это автоматизированная информационно-технологическая система, которая собирает данные из существующих баз и внешних источников, формирует, хранит и эксплуатирует информацию как единую. Оно обеспечивает инструментарий для преобразования больших объемов детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит слияние из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.

Хранилище информации предназначено для хранения, оперативного получения и анализа интегрированной информации по всем видам деятельности организации.

Данные в таком хранилище характеризуются следующими свойствами:

предметная ориентация — данные организованы согласно предмету, а не приложению (в соответствии со способом их применения);

интегрированностъ — данные согласуются с определенной системой наименований, хотя могут принадлежать различным источникам и их формы представления могут не совпадать;

упорядоченность во времени — данные согласуются во времени для использования в сравнениях, трендах и прогнозах;

неизменяемость и целостность — данные не обновляются и не изменяются, а только перезагружаются и считываются, поддерживая концепцию «одного правдивого источника».

большой объем и сложные взаимосвязи данных.

К основным категориям данных, которые располагаются в хранилище, относятся: метаданные, описывающие способы извлечения информации из различных источников, методы их преобразования из различных структур и форматов и доставки в хранилище; фактические данные (архивы), отражающие состояние предметной области и конкретные моменты времени; суммарные данные, полученные на основе проведенных аналитических расчетов.

В информационных хранилищах используются статистические технологии, генерирующие информацию об информации; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт.

Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.

Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения. Руководителям организации данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.

Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером).

Создание информационного хранилища данных требует решения ряда организационных вопросов, а также удовлетворения следующих требований к аппаратному и программному обеспечению.

Скорость загрузки. В хранилищах необходимо обеспечить периодическую загрузку новых порций данных, укладывающихся в достаточно узкий временной интервал. Требуемая производительность процесса загрузки не должна накладывать ограничения на размер хранилища.

Технология загрузки. Загрузка новых данных в хранилище включает преобразование данных, фильтрацию, переформатирование, проверку целостности, организацию физического хранения, индексирование и обновление метаданных. Это дает возможность объединить разнородную информацию из пакетов, применяемых в структурных подразделениях организации.

Управление качеством данных. В хранилище должна быть обеспечена локальная и глобальная согласованность данных. Мера качества построенного хранилища — объективность исходных данных и степень разнообразия возможных запросов.

Поддержка различных видов данных. В хранилище могут накапливаться данные не только стандартных типов, но и более сложных, таких, как текст, изображения, а также уникальных типов, определяемых разработчиками.

Скорость обработки запросов. Сложные запросы, важные для принятия ответственных решений, должны обрабатываться за секунды или минуты. Скорость обработки запроса должна зависеть от его сложности, а не от объема БД.

Масштабируемость. Хранилище организации может достигнуть нескольких сотен гигабайт. СУБД не должна иметь никаких архитектурных ограничений и должна поддерживать модульную и параллельную обработку, сохранять работоспособность в случае локальных аварий и иметь средства восстановления.

Обслуживание большого числа пользователей. Доступ к хранилищу данных не ограничивается узким кругом специалистов организации. Сервер БД должен поддерживать сотни пользователей без снижения скорости обработки запросов.

Сети хранилищ данных. Сервер должен содержать инструменты, координирующие перемещение данных — между хранилищем организации, информационными системами банков, ГНИ и т. п. Пользователи должны иметь возможность обращаться к нескольким хранилищам с одной клиентской рабочей станции.

Администрирование. СУБД должна обеспечить контроль за приближением к ресурсным ограничениям, сообщать о затратах ресурсов и позволять устанавливать приоритеты для различных категорий пользователей или операций, а кроме того, уметь осуществлять трассировку и настройку системы на максимальную производительность. Качество построенного хранилища определяется удобством доступа к нему для конечного пользователя.

Интегрированные средства многомерного анализа. Для обеспечения высокопроизводительной аналитической обработки необходимы средства многомерных представлений, инструменты, поддерживающие удобные функции создания предварительно вычисленных суммарных показателей и автоматизирующих генерацию таких предварительно вычисленных агрегированных величин.

Средства формирования запросов. Пользователь должен иметь возможность проведения аналитических расчетов, последовательного и сравнительного анализа, а также доступ к детальной и агрегированной информации.

Использование информационных хранилищ дает существенный выигрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных.

Активно развивающейся областью использования компьютеров является создание баз знаний (БЗ) и их применение в различных областях науки и техники. База знаний представляет собой семантическую модель, предназначенную для представления в ЭВМ знаний, накопленных человеком в определенной предметной области. Основные функции базы знаний: создание, загрузка; актуализация, поддержание в достоверном состоянии; расширение, включение новых знаний; обработка, формирование знаний, соответствующих текущей ситуации.

Для выполнения указанных функций разрабатываются соответствующие программные средства. Совокупность этих программных средств и баз знаний принято называть искусственным интеллектом.

Искусственный интеллект в настоящее время находит применение в таких областях, как планирование и оперативное управление производством, выработка оптимальной стратегии поведения в соответствии со сложившейся ситуацией, экспертные системы и т. д.