Извлечение информации
Представления и использования в информационных системах
Модели процессов извлечения, обработки данных, хранения,
Лекция 2
План
2.1. Извлечение информации.
2.2. Обработка информации.
2.3. Хранение информации.
2.4. Представление и использование информации.
Объекты и их свойства, процессы и функции, выполняемые этими объектами или для них являются источниками данных в любой предметной области. Любая предметная область рассматривается в виде трех представлений:
• реальное представление предметной области;
• формальное представление предметной области;
• информационное представление предметной области.
При извлечении информации важное место занимают различные формы и методы исследования данных:
• поиск ассоциаций, связанных с привязкой к какому-либо событию;
• обнаружение последовательностей событий во времени;
• выявление скрытых закономерностей по наборам данных, путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса);
• оценка важности (влияния) параметров на развитие ситуации;
• классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной категории;
• кластеризация, основанная на группировании объектов по каким-либо признакам;
• прогнозирование событий и ситуаций.
Декомпозиция– научный метод, использующий структуру задачи и позволяющий заменить решение одной большой задачи решением серии меньших задач.
Декомпозиция на основе объектно-ориентированного подхода основана на выделении следующих основных понятий: объект, класс, экземпляр.
Объект– это абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами поведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой объекта является состав его атрибутов (свойств).
Атрибуты– это специальные объекты, посредством которых можно задать правила описания свойств других объектов.
Экземпляр объекта– это конкретный элемент множества. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта – конкретный номер.
Класс– это множество предметов реального мира, связанных общностью структуры и поведением. Элемент класса – это конкретный элемент данного множества. Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает определение новых классов объектов на основе базовых.
Полиморфизм– способность объекта принадлежать более чем одному типу.
Наследованиевыражает возможность определения новых классов на основе существующих с возможностью добавления или переопределения данных и методов.
Инкапсуляция– это процесс отделения друг от друга элементов объекта, определяющих его устройство и поведение; инкапсуляция служит для того, чтобы изолировать контрактные обязательства абстракции от их реализации.
Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.
Структурное обогащениепредполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.
При статистическом обогащенииосуществляют накопление статистических данных и обработку выборок из генеральных совокупностей накопленных данных.
Семантическое обогащениеозначает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней.
Прагматическое обогащениеявляется важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.
Таким образом, процесс извлечения информации связан с переходом от реального представления предметной области к его описанию в формальном виде и в виде данных, которые отражают это представление.