Реальные ИС.

Любая реализация ИС является технологическим и организационно-штатным воплощением, которое может существовать в следующих видах:

1. СЛДОУ (служба документального обеспечения управления)

2. Информационная служба

3. Экспертно-аналитическая служба

Автоматизированные ИС.

Информационная система – прикладная программная подсистема, осуществляющая сбор, хранение, поиск, обработку текстовой и/или фактографической информации.

ИС в которой представление, хранение и обработка информации осуществляется средствами вычислительной техники называется автоматизированной. В таких системах как правило используется диалоговый ввод/вывод информации, используется прикладная логика обработки информации, а так же производится операции манипулирования файлами и данными.

Фактографические системы

По характеру представления и логической организации хра­нимой информации АИС разделяются нафактографические, документальные и геоинформационные.

Фактографические АИС накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов (информационных объектов). Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения по какому-либо факту, собы­тию и т. д., отделенному (вычлененному) от всех прочих сведе­ний и фактов.* Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов дан­ной предметной области. К примеру, фактографическая АИС, накапливающая сведения по лицам, каждому конкретному лицу в базе данных ставит в соответствие запись, состоящую из оп­ределенного набора таких реквизитов, как фамилия, имя, отче­ство, год рождения, место работы, образование и т. д. Комплек­тование информационной базы в фактографических АИС вклю­чает, как правило, обязательный процесс структуризации входной информации из документального источника. Структу­ризация при этом осуществляется через определение (выделе­ние, вычленение) экземпляров информационных объектов оп­ределенного типа, информация о которых имеется в докумен­те, и заполнение их реквизитов.

Вдокументальных АИС единичным элементом информа­ции является нерасчлененный на более мелкие элементы доку­мент и информация при вводе (входной документ), как прави­ло, не структурируется, или структурируется в ограниченном виде. Для вводимого документа могут устанавливаться некото­рые формализованные позиции — дата изготовления, испол­нитель, тематика и т. д. Некоторые виды документальных АИС обеспечивают установление логической взаимосвязи вводимых документов — соподчиненность по смысловому содержанию, взаимные отсылки по каким-либо критериям и т. п. Определе­ние и установление такой взаимосвязи представляет собой слож­ную многокритериальную и многоаспектную аналитическую задачу, которая не может в полной мере быть формализована.

Вгеоинформационных АИС данные организованы в виде отдельных информационных объектов

* Отсюда и название—«фактографические системы».

Рис. 1.3. Соотношение понятий БнД, СУ БД и БД

(с определенным набо­ром реквизитов), привязанных к общей электронной топогра­фической основе (электронной карте). Геоинформационные си­стемы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеет пространственно-географический компонент, например маршруты транспорта, коммунальное хо­зяйство и т. п.

Разработка и проектирование информационной системы на­чинаются с построения концептуальной модели ее использова­ния.Концептуальная модель использования информационной системы определяет, прежде всего, круг конкретных задет и функций, обеспечиваемых созданием и эксплуатацией инфор­мационной системы, а также систему сбора, накопления и вы­дачи информации.

Поэтому другим критерием классификации АИС являют­сяфункции и решаемые задачи, основными из которых могут являться:

• справочные;

• поисковые;

• расчетные;

• технологические.

Справочные функции являются наиболее распространен­ным типом функций информационных систем и заключаются в предоставлении абонентам системы возможностей получе­ния установочных данных на определенные классы объектов (Лица, Организации, Телефоны, Адреса и т. п.) с жестко или произвольно заданным набором сведений. Видами информаци­онных систем, реализующих чисто справочные функции, являются всевозможные электронные справочники, картотеки, про­граммные или аппаратные «электронные записные книжки» и их более развитые аналоги в виде т.н. персональных инфор­мационных систем.

Системы, реализующиепоисковые функции, являются наи­более широко распространенным классом информационных си­стем, которые чаще всего называют информационно-поисковыми системами (ИПС). ИПС в общем виде можно рассматривать как некое информационное пространство, задаваемое в тер­минах информационно-логического описания предметной об­ласти — «информационные объекты», «информационные свя­зи». Пользователям ИПС предоставляется возможность поиска и получения сведений по различным поисковым образам в та­ком информационном пространстве.

Расчетные функции информационных систем заключают­ся в обработке информации, находящейся в системе, по опре­деленным расчетным алгоритмам для различных целей. К чис­лу подобных задач относится вычисление определенных ста­тистических характеристик и показателей по экземплярам различных типов объектов и отношений, данные по которым накапливаются в системе. Широко применяющейся разновид­ностью расчетных информационных систем являются различ­ные системы автоматического проектирования, всевозможные бухгалтерские и финансово-экономические системы.

Технологические функции информационных систем заклю­чаются в автоматизации всего технологического цикла или от­дельных его компонент, какой-либо производственной или орга­низационной структуры. К системам, обеспечивающим подоб­ные задачи, относится широкий класс автоматизированных систем управления (АСУ, АСУ ТП). Другой разновидностью технологических информационных систем являются системы автоматизации документооборота.

Система представления и обработки данных фактографических АИС

В архитектуре подсистемы представления и обработки ин­формации фактографических АИС можно выделить различные уровни представления информации.

Начальный уровень определяется локальными представле­ниями о предметной области пользователей-абонентов инфор­мационной системы и их представлениями о своих информа­ционных потребностях. На основе анализа этих представлений определяетсяинформационно-логическая или сокращенно инфологическаясхема предметной области, подлежащей ото­бражению информационной системой, и концептуальная модель использования информационной системы. Инфологическая схема представляет собой формализованное представление (описание) объектов и отношений фрагмента действительнос­ти.

Наиболее часто формализация представлений о предмет­ной области осуществляется в рамках модели «объекты-свя­зи» (так называемаяER-людель от англ. Entity Relationship). При этом подинформационным объектом в общем плане по­нимается некоторая сущность фрагмента действительности, на­пример организация, документ, сотрудник, место, событие и т. д. В предметной области выделяются различные типы объек­тов, представляемые в информационной системе в каждый мо­мент времени конечным набором экземпляров данного типа. Каждый тип объекта включает (идентифицируется) присущий ему набор атрибутов (свойств, характерных признаков, пара­метров).Атрибут представляет логически неделимый элемент структуры информации, характеризующийся множеством ато­марных значений. Для примера можно привести атрибут «Имя» объекта типа «Лицо», который характеризуется множеством всех возможных имен, и атрибут «Текст» объекта типа «Доку­мент», который характеризуется множеством средств смысло­вого выражения в определенном национальном языке.

Экземпляр объекта образуется совокупностью конкретных значений атрибутов данного типа объекта. Один или некоторая группа атрибутов объекта данного типа могут исполнять роль ключевого атрибута, по которому идентифицируются (разли­чаются) конкретные экземпляры объектов. К примеру, для объектов типа «Лицо» ключом может являться совокупность атрибутов «Фамилия», «Имя», «Отчество» или один атрибут, выражающий номер паспорта (удостоверения личности).

Различные типы объектов и различные экземпляры одного типа объекта могут быть охвачены определенными отношени­ями, которые в рамках ER-модели выражаются т. н. связями. Так, например, объекты «Сотрудник» и «Организация» могут быть охвачены отношением «Работа», т. е. связаны этим отно­шением. При этомсвязи могут быть двух типов —иерархичес­кие, или, иначе говоря, структурные (владелец-подчиненный) иодноуровневые, например, родственная связь «Брат-сестра» между двумя экземплярами объекта типа «Лицо» (в отличие от иерархической родственной связи—«Отец-сын»). Объекты-владельцы иерархических связей-отношений иногда называют структурными объектами, в противовес простым объектам, которые таковыми не являются (не являются владельцами).

Структурные и одноуровневые связи (отношения), в свою очередь, по признаку множественности могут быть трех типов — «один-к-одному» (например, отношение «Лицо-Пас­порт», имея в виду под «Паспортом» не атрибут объекта Лицо, а самостоятельный объект, состоящий из атрибутов «Номер», «Вид паспорта», «Владелец», «Место выдачи», «Дата выдачи» и т. д.), «один-ко-многим» (например, отношение «Подразделе­ние-Сотрудник», имея в виду, что в одном подразделении мо­жет работать много сотрудников, но каждый сотрудник работа­ет только в одном подразделении) и «многие-ко-многим» (на­пример, отношение «Лицо-Документ», имея в виду, что один человек может быть автором, или иметь какое-либо другое от­ношение ко многим документам, и, в свою очередь, один доку­мент может иметь много авторов.

Помимо этого информационные потребности абонентов ин­формационной системы могут включать также и оперирование опосредованными (т. е. косвенными, непрямыми, ассоциатив­ными) связями. Примерами таких непрямых связей является совместная работа нескольких человек на одном предприятии (подразделении). Прямая непосредственная связь в данном слу­чае, как правило, устанавливается только между объектами «Лицо» и «Организация», но не между различными экземпля­рами объекта «Лицо».

Одним из способов представления формализованного опи­сания предметной области информационной системы в рамках модели «объекты-связи» является использование техники спе­циальных диаграмм, которая была предложена известным американским специалистом в области баз данных Ч. Бахманом. Вдиаграммах Бахмана объекты (сущности) представляются вершинами некоторого математического графа, а связи —ду­гами графа. Виды и свойства связей-отношений объектов ото­бражаются направленностью, специальным оформлением дуг и расположением вершин графа.

В качестве примера можно привести инфологическую схе­му предметной области сведений информационной системы, предназначенной для накопления данных о научной работе в каком-либо учебном или исследовательском учреждении (см. рис. 1.5).

Рис. 1.5. Мифологическая схема предметной области информа­ционной системы со сведениями о научной работе

На приведенном рисунке однонаправленность дуг означа­ет структурность связи «владелец-подчиненный», двунаправ­ленность дуг означает одноуровневые связи, двойные стрелки означают множественность отношения «один-ко-многим», дву­направленность двойных стрелок означает одноуровневые от­ношения «многие-ко-многим».

Одним из недостатков использования ER-диаграмм Бахма­на для описания формализованных схем (моделей) предметных областей информационных систем является их статичность, не позволяющая наглядно и непосредственно отображать процес­сы, в которые вовлечены сущности и которым подвержены от­ношения (связи). Отчасти подобные проблемы преодолевают­ся введением дополнительных сущностей, выражающих соб­ственно процессы и ситуации — событие, действие, момент времени. Аналогичным образом в некоторых случаях вводятся пространственные сущности для адекватного представления сущностей и отношений предметной области—маршрут, мес­то, населенный пункт, здание, элемент здания, зона и т. д.

Вторым уровном представления информации в информа­ционной системе (см. рис. 1.4) являетсясхема базы дачных, (называемая еще логической структурой данных), представля­ющая описание средствами конкретной СУБД инфологической схемы предметной области (информационные объекты, рекви­зиты, связи).

Совокупность средств и способов реализации схемы базы данных в конкретной СУБД составляетмодель организации данных.

Схема базы данных содержит такжеограничения целост­ности данных. Ограничения целостности представляют собой набор установок и правил по типам, диапазонам, соотношени­ям (и т. д.) значений атрибутов объектов, характеристик и осо­бенностей связей между объектами. К примеру, диапазон зна­чения атрибута «Дата рождения» объекта лицо не может выхо­дить за рамки текущей даты, значение атрибута «Дата приобретения» объекта «Имущество» не может быть позднее значения атрибута «Дата продажи», значение атрибута «Коли­чество» объекта «Материал» не должно быть меньше минималь­но необходимого на складе и т. п. Ограничения целостности данных лежат в основе контроля корректности информации при ее вводе в систему и периодического контроля наличия смыс­ловых и других ошибок в базе данных после проведения опе­раций добавления, удаления и изменения данных.

Третий и самый «низкий» уровень представления инфор­мации в фактографических информационных системах выражаетсявнутренней схемой базы данных, определяющей струк­туру организации и особенности хранения информационных массивов, в которых и находятся собственно сами данные. Более конкретные особенности представления и организа­ции данных определяются конкретным типом и особенностя­ми СУБД, используемой для создания фактографической ин­формационной системы.

Классические модели в теории БД изначально ориентированы на организацию хорошо структурированных данных, но чаще всего пользователь ИС работает со слабо структурированными данными, которые называют документами. В отличие от фактографических информационно- поисковых систем для ДИПС необходимы свои системы управления, которые называют Системами Управления Документами. Основной функцией любой ДИПС является информационное обеспечение потребителей, на основе выдачи ответов на их запросы.

Напомним, что в фактографических информационных си­стемах единичным элементом данных, имеющим отдельное смысловое значение, является запись, образуемая конечной со­вокупностью полей-атрибутов. Иначе говоря, информация о предметной области представлена набором одного или несколь­ких типов структурированных на отдельные поля записей.

В отличие от фактографических информационных систем, единичным элементом данных в документальных информа­ционных системах является неструктурированный на более мелкие элементыдокумент.В качестве неструктурированных документов в подавляющем большинстве случаев выступают, прежде всего,текстовые документы, представленные в виде текстовых файлов, хотя к классу неструктурированных доку­ментированных данных могут также относиться звуковые и графические файлы.

Основной задачей документальных информационных сис­тем является накопление и предоставление пользователю до­кументов, содержание, тематика, реквизиты и т. п. которых адекватны его информационным потребностям. Поэтому мож­но дать следующее определение документальной информаци­онной системы —единое хранилище документов с инстру­ментарием поиска и отбора необходимых документов. По­исковый характер документальных информационных систем исторически определил еще одно их название — информаци­онно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.* Соответ­ствие найденных документов информационным потребностям пользователя называетсяпертинентностью.В силу теоретических и практических сложностей с формализацией смысло­вого содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показа­телями.

* Поиск информации (данных) осуществляется и в фактографических ИС. Таким образом термин ИПС определяет функциональное назначение ИС, но не отражает спе­цифики представления и обработки данных. Специфика документальных ИПС заключается в том, что они удовлетворяют информационные потребности пользователя, пре­доставляя ему документы, в которых содержится интересующая пользователя инфор­мация.

 

В зависимости от особенностей реализации хранилища до­кументов и механизмов поиска документальные ИПС можно разделить на две группы:

системы на основе индексирования;

• семантически-навигационные системы.

Всемантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответству­ющими смысловым связям (отсылкам) между различными до­кументами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую* (смысловую) сеть в базе документов. Способ и механизм выра­жения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой под­ход реализуется вгипертекстовых ИПС.

* Семантика (от греч. «semantikos»—обозначающий)—смысловая сторона языка, отдельных слов и частей слова, а также— раздел языкознания, изучающий значения слов.

 

В системахна основе индексирования исходные докумен­ты помещаются в базу без какого-либо дополнительного пре­образования,* но при этом смысловое содержание каждого до­кумента отображается в некотороепоисковое пространство. Процесс отображения документа в поисковое пространство на­зываетсяиндексированием и заключается в присвоении каж­дому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление (описание) ин­декса документа называетсяпоисковым образом документа (ПОД). Пользователь выражает свои информационные потреб­ности средствами и языком поискового пространства, форми­руяпоисковый образ запроса (ПОЗ) к базе документов. Система на основе определенных критериев и способов ищет доку­менты, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответству­ющие документы. Соответствие найденных документов запро­су пользователя называется релевантностью.** Схематично об­щий принцип устройства и функционирования документаль­ных ИПС на основе индексирования иллюстрируется на рис. 6.1.

* За исключением возможного сжатия (архивирования).

** На практике термин релевантность часто отождествляют с термином пертинентность, хотя в строгом отношении они различны.

 

Рис. 6.1. Общий принцип устройства и функционирования до­кументальных ИПС на основе индексирования

Особенностью документальных ИПС является также то, что в их функции, как правило, включаются изадачи информаци­онного оповещения пользователей по всем новым поступаю­щим в систему документам, соответствующим заранее опреде­ленным информационным потребностям пользователя.* Прин­цип решения задач информационного оповещения в документальных ИПС на основе индексирования аналогичен принципу решения задач поиска документов по запросам и ос­нован на отображении в поисковое пространство информа­ционных потребностей пользователя в виде так называемых поисковых профилей пользователей (ППП). Информационно-поисковая система по мере поступления и индексирования но­вых документов сравнивает их образы с поисковыми профиля­ми пользователей и принимает решение о соответствующем опо­вещении. Принцип решения задач информационного оповеще­ния схематично иллюстрируется на рис. 6.2.

* Задачи информационного оповещения основаны на идеологии т.н.избиратель­ного распространения информации (ИРИ), наработанной в библиотечном деле.

 

Рис. 6.2. Принцип решения задач информационного оповещения в документальных ИПС на основе индексирования

Поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, стро­ится на основе языков документальных баз данных, называемых информационно-поисковыми языками (ИПЯ).Информационно-поисковый язык представляет собой некоторую формализован­ную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых доку­ментов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие.

Структурная составляющая ИПЯ (поискового пространства) документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно-поисковых ка­талогов, тезаурусов и генеральных указателей.

Информационно-поисковые каталоги являются традицион­ными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют со­бой классификационную систему знаний по определенной пред­метной области. Смысловое содержание документа в информа­ционно-поисковых каталогах отображается тем или иным клас­сом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) со­ответствующего по содержанию класса (классов) каталога и со­здания на этой основе специального индексного указателя.

Тезаурус представляет собой специальным образом органи­зованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигма­тических отношений между ними. Парадигматические отноше­ния выражаются семантическими отношениями между элемен­тами словаря, не зависящими от любого контекста. Независи­мость от контекста означает обобщенность (абстрагированность) смысловых отношений, например отношения «род-вид», «пред­мет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выражен­ное средствами тезауруса смысловое содержание документа.

Генеральный указатель* (глобальный словарь-индекс) в об­щем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ докумен­та — № абзаца — № предложения — № слова). Индексирование нового документа в таких системах производится через дополне­ние координатных отсылок тех словоформ генерального указа­теля, которые присутствуют в новом документе. Так как поис­ковое пространство в таких системах отражает полностью весь текст документа (все слова документа), а не только его смысловое содержание, то такие системы получили названиеполнотекстовых ИПС.**

* Исторически в специальной литературе употреблялся также термин «конкор­данс».

** В специальной литературе такие системы иногда называют системами без лекси­ческого контроля, т. е. без учета возможной синонимичности отдельных групп слово­форм, объединения отдельных групп словоформ в общие смысловые группы, семанти­ческих отношении между словоформами.

 

Структурная составляющая ИПЯ семантически-навигаци­онных систем реализуется в виде техники смысловых отсылок в текстах документов и специальном навигационном интерфей­се по ним и в настоящее время представленагипертекстовы­ми технологиями.

Поисковая (манипуляционная) составляющая ИПЯ реали­зуется дескрипторными и семантическими языками запросов.

В дескрипторных языках документы и запросы представ­ляются наборами некоторых лексических единиц (слов, слово­сочетаний, терминов) — дескрипторов, не имеющих между со­бой связей, или, как еще говорят, не имеющих грамматики. Та­ким образом, каждый документ или запрос ассоциируется или, лучше сказать, представлен некоторым набором дескрипторов. Поиск осуществляется через поиск документов с подходящим набором дескрипторов. В качестве элементов-дескрипторов выступают либо элементы словаря ключевых терминов, либо элементы генерального указателя (глобального словаря всех словоформ). В силу отсутствия связей между дескрипторами, набор которых для конкретного документа и конкретного зап­роса выражает, соответственно, поисковый образ документа — ПОД или поисковый образ запроса ПОЗ, такие языки применя­ются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семан­тические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семан­тических языков подразделяется на две большие группы:

• предикатные языки;

• реляционные языки.

Впредикатных языках в качестве элементарной осмыс­ленной конструкции высказывания выступает предикат, кото­рый представляет собой многоместное отношение некоторой

совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет оп­ределенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания в естественном языке выступает предложение, констатирую­щее определенный факт или описывающее определенное со­бытие.

В реляционных языках лексические единицы высказыва­ний могут вступать только в бинарные (друг с другом), но не в совместные, т. е. не многоместные отношения.

В качестве лексических единиц семантических языков выс­тупают функциональные классы естественного языка, важней­шими из которых являются:

понятия-классы (общее определение совокупности одно­родных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других);

понятия-действия (лексический элемент, выражающий динамику реального мира, содержит универсальный набор при­знаков, включающий субъект действия, объект действия, вре­мя действия, место действия, инструмент действия, цель и т. д.);

понятия-состояния (лексические элементы, фиксирую­щие состояния объектов);

имена (лексические элементы, идентифицирующие по­нятия-классы);

отношения (лексические элементы, служащие для уста­новления связей на множестве понятий и имен);

квантификаторы (всеобщности, существования и т. д.).

Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, опи­сывая своими средствами собственно сами каталоги, тезауру­сы, семантические сети и выражая смысловое содержание до­кументов и запросов.

В заключение общей характеристики документальных ИПС приведем основныепоказатели эффективностиих функци­онирования. Такими показателями являются полнота и точность информационного поиска.

Полнота информационного поиска R определяется отно­шением числа найденных пертинентных документов А к обще­му числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов:

R=A/C.

Точность информационного поиска Р определяется отно­шением числа найденных пертинентных документов А к обще­му числу документов L, выданных на запрос пользователя:

P=A/L

Наличие среди отобранных на запрос пользователя нере­левантных документов называетсяинформационным шумом системы. Коэффициент информационного шума k, соответ­ственно, определяется отношением числа нерелевантных до­кументов (L–A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя:

k =

В идеале полнота информационного поиска и точность ин­формационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.


 

1. В информатике под информационной системой принято понимать систему

a) организующую, хранящую и преобразующую информацию, т.е. систему, основным предметом которой является информация.

b) организующую, хранящую и преобразующую информацию, т.е. систему, основным предметом которой является текст.

c) Связанных между собой компьютеров

d) Преобразующую информацию