Хранилища данных и базы знаний — перспектива развития ИО в управлении
Хранилище данных (data warehouse) - это автоматизированная информационно-технологическая система, которая собирает данные из существующих баз и внешних источников, формирует, хранит и эксплуатирует информацию как единую. Оно обеспечивает инструментарий для преобразования больших объемов детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит слияние из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.
Особенность новой технологии в том, что она предлагает среду накопления данных, которая не только надежна, но по сравнению с распределенными СУБД и оптимальна в отношении доступа к данным и манипулирования ими.
Хранилище информации предназначено для хранения, оперативного получения и анализа интегрированной информации по всем видам деятельности организации.
Данные в таком хранилище характеризуются следующими свойствами:
• предметная ориентация — данные организованы согласно предмету, а не приложению (в соответствии со способом их применения);
• интегрированность — данные согласуются с определенной системой наименований, хотя могут принадлежать различным источникам и их формы представления могут не совпадать;
• упорядоченность во времени — данные согласуются во времени для использования в сравнениях, трендах и прогнозах;
• неизменяемость и целостность — данные не обновляются и не изменяются, а только перезагружаются и считываются, поддерживая концепцию «одного правдивого источника».
• большой объем и сложные взаимосвязи данных.
К основным категориям данных, которые располагаются в хранилище, относятся:
· метаданные, описывающие способы извлечения информации из различных источников, методы их преобразования из различных структур и форматов и доставки в хранилище;
· фактические данные (архивы), отражающие состояние предметной области и конкретные моменты времени;
· суммарные данные, полученные на основе проведенных аналитических расчетов.
В информационных хранилищах используются статистические технологии, генерирующие информацию об информации; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт.
Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.
Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения. Руководителям организации данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.
Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером).
Создание информационного хранилища данных требует решения ряда организационных вопросов, а также удовлетворения следующих требований к аппаратному и программному обеспечению.
Скорость загрузки. В хранилищах необходимо обеспечить периодическую загрузку новых порций данных, укладывающихся в достаточно узкий временной интервал. Требуемая производительность процесса загрузки не должна накладывать ограничения на размер хранилища.
Технология загрузки. Загрузка новых данных в хранилище включает преобразование данных, фильтрацию, переформатирование, проверку целостности, организацию физического хранения, индексирование и обновление метаданных. Это дает возможность объединить разнородную информацию из пакетов, применяемых в структурных подразделениях организации.
Управление качеством данных. В хранилище должна быть обеспечена локальная и глобальная согласованность данных. Мера качества построенного хранилища - объективность исходных данных и степень разнообразия возможных запросов.
Поддержка различных видов данных. В хранилище могут накапливаться данные не только стандартных типов, но и более сложных, таких, как текст, изображения, а также уникальных типов, определяемых разработчиками.
Скорость обработки запросов. Сложные запросы, важные для принятия ответственных решений, должны обрабатываться за секунды или минуты. Скорость обработки запроса должна зависеть от его важности, а не от объема БД.
Масштабируемость. Хранилище организации может достигнуть нескольких сотен гигабайт. СУБД не должна иметь никаких архитектурных ограничений и должна поддерживать модульную и параллельную обработку, сохранять работоспособность в случае локальных аварий и иметь средства восстановления.
Обслуживание большого числа пользователей. Доступ к хранилищу данных не ограничивается узким кругом специалистов организации. Сервер БД должен поддерживать сотни пользователей без снижения скорости обработки запросов.
Сети хранилищ данных. Сервер должен содержать инструменты, координирующие перемещение данных - между хранилищем организации, информационными системами банков, ГНИ и т. п. Пользователи должны иметь возможность обращаться к нескольким хранилищам с одной клиентской рабочей станции.
Администрирование. СУБД должна обеспечить контроль за приближением к ресурсным ограничениям, сообщать о затратах ресурсов и позволять устанавливать приоритеты для различных категорий пользователей или операций, а кроме того, уметь осуществлять трассировку и настройку системы на максимальную производительность. Качество построенного хранилища определяется удобством доступа к нему для конечного пользователя.
Интегрированные средства многомерного анализа. Для обеспечения высокопроизводительной аналитической обработки необходимы средства многомерных представлений, инструменты, поддерживающие удобные функции создания предварительно вычисление суммарных показателей и автоматизирующих генерацию таких предварительно вычисленных агрегированных величин.
Средства формирования запросов. Пользователь должен иметь возможность проведения аналитических расчетов, последовательного и сравнительного анализа, а также доступ к детальной и агрегированной информации.
Примером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и Digital. Платформой является Digital Unix для 64-разрядной архитектуры Digital AXP, преодолевшей на аппаратном уровне четырехгигабайтовый барьер адресного пространства оперативной памяти. Платформы Digital AlphaServer 8200 и AlphaServer 8400 уже сейчас позволяют адресоваться к оперативной памяти емкостью 14 Гбайт и планируется расширить эту границу за 50 Гбайт. Вторая базовая операционная система фирмы Digital Open - VMS 7.0.
В информационном хранилище Oracle VLM увеличился объем кэш-памяти (быстродействующей памяти) для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд. Например, «маленькая» база данных объемом 5 Гбай; целиком загружается в кэш-память. Поскольку кэш-память базы дан ных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с большом системной областью памяти LSGA.
Увеличился максимальный размер обрабатываемого блока базы данных до 32 Кбайт. Обычно он равнялся 2 Кбайтам, а максимальный - 8 Кбайтам. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и собственно данные. Если данные (графика, аудио-, видеоданные, изображения) не помещаются в блок целиком, строится цепочка блоков.
Использование информационных хранилищ дает существенный выигрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных.
Активно развивающейся областью использования компьютеров является создание баз знаний (БЗ), и их применение в различных областях науки и техники.
База знании представляет собой семантическую модель, предназначенную для представления в ЭВМ знаний, накопленных человеком в определенной предметной области.
Основные функции базы знаний:
· создание, загрузка, актуализация, поддержание в достоверном состоянии знаний;
· расширение, включение новых знаний;
· обработка, формирование знаний, соответствующих текущей ситуации.
Для выполнения указанных функций разрабатываются соответствующие программные средства. Совокупность этих программных средств и баз знаний принято называть искусственным интеллектом.
Искусственный интеллект в настоящее время находит применение в таких областях, как планирование и оперативное управление производством, выработка оптимальной стратегии поведения в соответствии со сложившейся ситуацией, экспертные системы и т. д.
Наиболее перспективным представляется использование искусственного интеллекта для построения экспертных систем.
Экспертная система это компьютерные программы, формализующие процесс принятия решений человеком. Назначение экспертных систем — формирование и вывод рекомендаций в зависимости от текущей ситуации, которая описывается совокупностью сведений, данных, вводимых пользователем в диалоговом режиме. Требуемые при этом данные могут извлекаться из создаваемой для решения функциональных задач базы данных. Выдаваемые компьютером рекомендации должны соответствовать рекомендациям специалиста высокой квалификации. Поэтому в формировании БЗ должны принимать участие специалисты — менеджеры высокой квалификации.
В качестве элемента экспертной системы можно рассматривать и базу данных. В то же время БД является составной частью БнД и ИТ. Поэтому наряду с БЗ экспертная система должна рассматриваться как основная составляющая часть внутри машинного информационного обеспечения.
Экспертные системы, являющиеся в настоящее время наиболее распространенным классом систем искусственного интеллекта, обладают способностью рассмотреть большое число вариантов, чем это доступно человеку, при доскональном анализе ситуаций в той или иной предметной области и выдать «интеллектуальные» решения в сложных ситуациях, благодаря наличию в них баз знаний.
Поэтому в помощь менеджерам в условиях распределенной системы обработки данных предполагается создать ряд экспертных систем. Так, при разработке плана производства для уточнения номенклатуры планируемой к выпуску продукции целесообразно создать экспертные системы по оценке конъюнктуры рынка и оценке технического уровня продукции, связанные с довольно сложным анализом исходной информации.