Общая характеристика фактографических ИС.


Особенности функционирования фактографических ИС

Использование автоматического тезауруса при поиске.

Поиск по размеру.

Другим способом поиска в файле, организованном в том или ином порядке, является поиск по размеру. Для выражения такого рода запросов используются операторы FROM и ТО (ОТ и ДО). Например, поиск по возрасту от 25 до 35 лет может быть проведён с помощью выражения AGE FROM 25 ТО 35. Инвертированная индексация помогает в этом виде поиска, так как элементы файла инвертированных индексов организованы в порядке от меньшего к большему, и при запросе извлекается выделенная часть такого порядка.

При использовании автоматического тезауруса при составлении запроса на поиск происходит автоматическая сверка и исправление вводимого термина с правильной его формой, содержащейся в тезаурусе. Также путём автоматического расширения лексически контролируемого термина запроса на выдачу выходят все документы, содержащие термины, иерархически подчинённые запрашиваемому. Например, если в тезаурусе определено, что под дескриптором ПРЕСТУПЛЕНИЯ ПРОТИВ СОБСТВЕННОСТИ содержатся более узкие термины: КРАЖИ, ГРАБЕЖИ, РАЗБОИ и т.п., – то на запрос " ПРЕСТУПЛЕНИЯ ПРОТИВ СОБСТВЕННОСТИ" с указанием использования функции автоматического расширения будут выданы документы, содержащие все эти термины, а не только основной дескриптор.

Использование файла рабочих карт (Signature file).

Создание отдельного файла, в котором хранятся краткие записи обо всех записях текстового файла, позволяет проводить быстрое сравнение элементов запроса с такими рабочими картами. Последовательный поиск в массиве рабочих карт протекает гораздо быстрее, чем в большом массиве основных записей.

 

Объединяющим началом всех ИС являются их цели, задачи и функции. Различия определяются способами, методами и средствами реализации поставленных целей, задач и функций. В основе этих различий лежит специфика обрабатываемых ими информационных массивов. Документальные системы имеют дело со слабоструктурируемой информацией, представленной совокупностью документов, которые необходимо содержать в системе в целях удовлетворения информационных потребностей её пользователей. Предметная область таких систем – информационная база слабоструктурируемой информации. Основные средства – информационно-поисковый язык, критерий смыслового соответствия и аппарат поиска. Фактографические информационные системы (ФИС) имеют дело с жёсткоструктурируемой информацией, отображающей в той или иной степени динамику функционирования определённых объектов. Предметная область фактографических систем – информационная база жёсткоструктурируемой информации. Основные средства – языки описания и манипулирования данными. Принципиальные различия в степени структурируемости информации приводят к существенным различиям в средствах её обработки, соответственно в программных реализациях документальных и фактографических ИС.

Фактографическая ИС включает в себя: банк данных, подсистему подготовки и ввода информации, подсистему реализации пользовательских задач и подсистему подготовки и выдачи результатов обработки информации пользователям.

Подсистема реализации пользовательских задач ориентирована на решение определённого множества задач пользователей на основе использования банка данных и совокупности пакетов прикладных программ (в том числе электронных таблиц, текстовых процессоров, графических редакторов и т.д.).

Подсистемы ввода информации, подготовки и выдачи результатов её обработки реализуют те же функции, что и документальные ИС.

Основным ядром ФИС является фактографический банк данных. Именно банк данных является основой информационного обеспечения пользователей и базой решения всех пользовательских задач.

Фактографические банки данных – взаимосвязанная совокупность языковых, логических, программных, информационных, технических, организационных средств ввода, переработки, хранения, поиска и выдачи жёсткоструктурированной информации. Такая информация может быть представлена в текстовой, числовой, графической и других формах. Особенностью такой информации является сохранение адекватности создаваемого образа информации самой информации. Основной единицей хранения в базе данных фактографической АИПС является факт (в отличие от документальных систем, где основной единицей хранения является документ).

В соответствии с определением банк данных включает: базу данных, систему управления базой данных (СУБД), технические средства и администрацию банка данных. Основным элементом этой структуры является база данных. Состав и структура БД, а также методы структурирования данных для их представления в БД и методы их обработки целиком определяют все параметры используемой в банке данных СУБД.

ФИС и, соответственно, банк данных создаётся для решения некоторой совокупности задач вполне определённой организации, предприятия и т.д., т.е. определённой организационной системы или её составляющих.

В общей теории информационных систем организационная система или её составляющие, для решения задач которых создаётся банк данных, носит название предметной области банка данных. Банк данных и, соответственно, ФИС могут отвечать всем информационным потребностям пользователей предметной области только в том случае, если они могут постоянно отображать динамику функционирования этой предметной области.

Сложность и слабая структурируемость самой предметной области, с одной стороны, и необходимость обработки информации в компьютере в жёсткоструктурируемой форме, с другой – приводят к необходимости приближённого представления предметной области в виде некоторой модели.

Для построения модели предметной области, отображающей динамику самой предметной области, используются понятия объект, свойство, связь, время, т.е. предметная область рассматривается как некоторая объектная система.

Объект – это то, о чём в системе должна накапливаться информация. Синонимами термина "объект" служат слова "реалия", "сущность". Объекты могут иметь материальную и нематериальную природу. Примеры объектов – студент, дисциплина, преподаватель, кафедра. Выбор объектов производится в соответствии с целевым назначением системы. Совокупность объектов предметной области образует её объектное ядро. С точки зрения приложений одни объекты считаются простыми, элементарными, неделимыми, бесструктурными; другие – сложными, составными, имеющими определённый состав и структуру. Каждый объект в конкретный момент времени характеризуется определённым состоянием. Это состояние описывается с помощью ограниченного набора свойств и связей (отношений) с другими объектами.

Под свойством понимается некоторая характеристика объекта, позволяющая установить его сходство и различие по отношению к другим объектам. Различают индивидуальные и общие свойства объекта. Первые присущи лишь единичным экземплярам объекта. Такими свойствами отличаются друг от друга, например, товары одного наименования. Общие свойства характерны целому классу объектов. Важными являются свойства объекта, по которым его можно идентифицировать в модели предметной области.

Под отношением понимается форма связи между объектами. Различают внешние и внутренние отношения. Внешние отношения отражают связи между объектами, не затрагивая при этом их внутренние связи. Внутренние отношения выявляют свойства объектов или обусловливают их зависимость от данного отношения.

Использование времени в качестве одной из основных составляющих объектной системы позволяет строить динамические модели предметной области, в которых отражается зависимость от времени состояний системы.

Требования адекватности модели реальной предметной области приводят к необходимости построения некоторой иерархии моделей, высший уровень иерархии которых наиболее адекватно отображает предметную область, а нижний уровень воспринимается компьютером. Такое моделирование предметной области на языке информатики носит название многоуровневого представления данных. В настоящее время в информатике используются двухуровневое и трёхуровневое представление данных.

Наиболее широко распространено рассматриваемое в дальнейшем трёхуровневое представление данных о предметной области. Такому представлению соответствуют три типа моделей:

- концептуальная модель банка данных – модель внешнего уровня иерархии, наиболее точно отображающая предметную область;

- логическая модель банка данных – промежуточная модель, обеспечивающая переход от концептуальной модели предметной области к физической модели банка данных;

- физическая модель банка данных – модель низшего уровня иерархии, с которой работает компьютер.

Независимо от числа уровней представления данных в банке данных процесс функционирования ФИС состоит в следующем:

- сбор данных о предметной области и запросах к банку данных на естественном языке;

- многоуровневое структурирование данных на различных уровнях их представления;

- ввод данных в банк данных;

- поиск и обработка данных;

- формирование выходной продукции.

Следует напомнить, что сложность фактографических ИС, так же как и документальных ИС, не позволяет рассматривать их в одном измерении. Необходимы различные варианты стратифицированного представления. Некоторые варианты таких представлений уже были рассмотрены ранее (структурная схема процесса функционирования ИС, покомпонентная декомпозиция, декомпозиция на обеспечивающие подсистемы), а также в данном параграфе (схема трёхуровневого представления данных и схема взаимодействия пользователей с фактографическим банком данных). Каждое из этих представлений относится к одному и тому же объекту, но иллюстрирует его различные стороны.

Составляющими компонентами банка данных являются: ЭВМ, база данных, администратор БД (лицо или группа лиц, реализующих управление банком данных посредством СУБД).

Различают следующие виды пользователей банков данных:

- пользователи-задачи – регламентированные по содержанию и форме запросы к банку данных;

- пользователи-люди (программисты и непрограммисты). Пользователи-программисты совершенствуют, расширяют и изменяют программную среду банка данных. Пользователи-непрограммисты (конечные пользователи) – учёные, руководители и сотрудники организаций.

Каждая АИС соотносится с определённой частью реального мира, которую принято называть предметной областью системы. Так как каждая система ориентирована на выполнение определённых функций в соответствующей ей области, то её предметную область следует рассматривать как результат целенаправленного отражения фрагмента реального мира с позиций интересов АИС.

Реализацию различных функций по обработке, информации осуществляют прикладные системы, входящие в состав АИС, каждая из которых требует информации об определённой части предметной области – проблемной среде. Проблемные среды различных прикладных систем АИС могут находиться в различном соотношении – быть независимыми, пересекаться, включаться одна в другую.

Путём регистрации отдельных фактов, относящихся к тем или иным явлениям реального мира, собирается информация о предметной области ФИПС, на базе которой строится описание предметной области – её модель. БД, являющаяся неотъемлемой компонентой ФИПС, рассматривается как динамическая модель предметной области.

Применительно к некоторым областям гуманитарного исследования, например исторического или правового, понятие предметной области, её описание и моделирование имеет определённую специфику. Выше дано определение предметной области как результат целенаправленного отражения фрагмента реального мира с позиций интересов АИС. Корректное толкование терминов "реальный мир" или "действительность" требует понимать их как объективную реальность (т.е. существующее в действительности) во всей её конкретности, как совокупность исторических, общественно-политических и юридических явлений. Однако часто предметной областью фактографической БД, создаваемой историком, философом, юристом или другим исследователем, является не реальная действительность, а совокупность документов, исторических источников, правовых актов, которые лишь косвенно отражают реальность. В этом случае корректнее говорить не о моделировании фрагмента исторической или правовой реальности, а о моделировании совокупности источников, используемой для исследования какой-либо проблемы. Тогда созданную модель можно рассматривать как новый "метаисточник", который в большинстве случаев тем более адекватен реальности (или проблеме), чем больше разнообразных источников он охватывает. Однако (независимо от особенностей толкования предметной области) не следует забывать, что специфика рассматриваемого типа АИПС требует фиксации в её БД жёсткоструктурированной информации о предметной области. Фактографическая БД предназначена для хранения такой информации (фактов), почерпнутой при анализе реальной действительности или совокупности документов, опосредованно или косвенно её представляющих.

Основные принципы построения фактографических БД:

- однократность ввода данных, многократность и многоаспектность их использования;

- организация данных сложной структуры, ориентированной на возможность их произвольной выборки в соответствии с поступающими запросами;

- централизация хранения и обработки данных на основе их интеграции, т.е. возможность взаимосвязи элементов данных, относящихся к различным массивам;

- неизбыточность данных, т.е. отсутствие их дублирования в различных массивах;

- защита данных от несанкционированного доступа, возможность использования конкретным пользователем отдельных процедур их обработки.

Способы организации данных в БД оказывают влияние на оперативность поиска, полноту и точность поиска, объёмы памяти ЭВМ и т.д.

Архитектура современных фактографических БД предусматривает сложную многоуровневую систему организации данных. Каждый уровень системы соответствует определённому уровню абстрагирования при рассмотрении структуры БД, имеющему определённое целевое назначение. Например, для человека пользователя, не являющегося специалистом в области обработки данных, выбирается один уровень абстрагирования; для выполнения качественного проектирования структур данных в базе – другой уровень; для решения задачи рациональной организации БД в ЭВМ – третий и т.д. Такой подход к построению БД обеспечивает возможность представления в памяти ЭВМ сложных структур данных в виде, допускающем их программную обработку средствами СУБД. При такой архитектуре БД обладает высокой способностью адаптации к возможным изменениям, как в прикладных программах, так и в самих данных.

Различают следующие уровни организации данных.

Внешний уровень определяет данные, представляющие интерес для отдельно взятого конкретного приложения (для конкретного пользователя). Пользователь понимает БД посредством внешней модели, которая является содержанием БД в том виде, в каком её представляет конкретный пользователь.

Концептуальный уровень соответствует описанию предметной области в целом, т.е. определяет объекты, их характеристики и отношения, представляющие интерес для всех приложений. Концептуальная схема отражает семантическое восприятие информационного содержания БД обо всей отображаемой предметной области.

Внутренний уровень определяет данные, представляющие интерес для проектирования и эксплуатации системы. Он охватывает логический и физический уровни. Логический уровень описывается посредством внутренней схемы, которая определяет различные типы хранимых записей, представления хранимых полей, последовательность полей и т.д. Физический уровень соответствует схеме организации данных в среде запоминания и хранения.

Для описания данных и связей между ними на каждом уровне абстракции используется такое средство абстракции, как модель. Существует множество моделей, отражающих различные аспекты реального мира: физические, позволяющие понять физические свойства, математические, представляющие собой абстрактное описание мира с помощью математических знаков. Модель данных позволяет увидеть информационное содержание (семантику) данных.

Процесс функционирования фактографических банков данных состоит в следующем:

а) при вводе данных:

- сбор данных о предметной области;

- структурирование отобранных данных в соответствии с требованиями СУБД (перевод данных на язык СУБД);

- ввод данных;

- обработка данных.

б) при обработке и поиске информации:

- формулирование запроса на обработку информации на ЕЯ;

- перевод запроса на язык СУБД;

- ввод запроса;

- поиск и обработка информации;

- формирование выходной продукции.

Упрощённая схема взаимодействия пользователя с интегрированной АИС включает средства обработки документальной информации, фактографической информации и пакет прикладных программ для решения пользовательских задач.