Модель инвертированных файлов и информационно-поисковые системы
Модель инвертированных файлов можно рассматривать как частный случай сетевой двухуровневой модели данных.
Основными информационными конструкциями в модели инвертированных файлов являются основной файл, который соответствует понятию "отношения", "инвертированный файл" и "список связи".
В основном файле Fi разрешается выделить один или несколько атрибутов(выделяемый атрибут может быть как первичным, так и вторичным ключом), по значениям которых затем будут формироваться инвертированные файлы и списки связи.
Все записи файлов получают в пределах БД единую нумерацию. Каждому значению ключевого атрибута ставится в соответствие множество номеров записей основных файлов, где это значение связано с именем атрибута.
Определенная таким образом последовательность значений атрибута А и номеров записей основного файла является инвертированным файлом.
Единая нумерация всех записей базы данных приводит к тому, что номер записи становится первичным ключом во всех основных файлах базы данных независимо от того, какие атрибуты образуют ключ в каждом из этих файлов.
Для двух файлов, имеющих общий атрибут, существуют два списка связи. В первом списке для каждого номера записи из первого файла указываются номера записей из второго файла, имеющие то же самое значение атрибута. Аналогично определяется содержимое второго списка связи.
Пример.База данных содержит основные файлы Сотрудники и Зарплата. Естественно, что списки связи установлены по атрибуту Фамилия, а инвертированных списков в нашем примере максимально может быть пять (по числу атрибутов в основных файлах).
Преимущества модели инвертированных файлов особенно проявляются при реализации выборки с большим количеством условий. Каждое условие выборки соответствует множеству номеров записей, и комбинация условий выборки означает манипулирование ранее полученными из инвертированных файлов множествами номеров записей. Эта модель применяется в современных информационно-поисковых системах.
Сотрудники | |
Фамилия | Должность |
01 Котов 02 Яшина 03 Седов 04 Рогов | Инженер технолог технолог инженер |
Зарплата | ||
Фамилия | Дата | Зарплата |
05 Яшина | 10.01.98 | |
06 Седов | 20.03.98 | |
07 Яшина | 20.03.98 | |
08 Котов | 20.03.98 | |
09 Рогов | 10.04.98 | |
10 Котов | 10.04.98 | |
11 Яшина | 10.05.98 |
Рисунок 2.17. Инвертированный список Должность (Сотрудники)
инженер — 01, 04
технолог — 02, 03
Список связи (Сотрудники, Зарплата)
01 —08, 10
02 — 05, 07, 11
03—06
04—09
Список связи (Зарплата, Сотрудники)
05—02
06—03
07—02
08—01
09—04
10—01
11—02
Вопросы для самоконтроля к главе 2
1.Какими параметрами различают модели данных?
2Чем характеризуется реляционная модель данных?
3.Что такое «отношение»?Как вы понимаете отношение с двухуровневой структурой?
4.Что такое кортеж?
5.Перечислите процедурные операции с реляционной базой данных.
6.Чем отличаются операции выборки и проекции?
7.Приведите примеры функциональных зависимостей между атрибутами.
8.Что такое ключ отношения?
9.Что такое первичный ключ отношения?
10.Какие требования к базам данным удовлетворяются процедурой нормализации отношения?
11.Чем отличается процедура нормализации базы данных от нормализации СЕИ?
12.Что такое неполная функциональная зависимость для 2НФ?
13. Что такое транзитивная функциональная зависимость для 3НФ?
14.Какие требования к базам данным удовлетворяются процедурой проверки на ацикличност?
15.Каким способом восстанавливаются свойства ацикличности?
16.Чем характеризуется сетевая модель данных?
17.Что такое веерное отношение?
18.В чем принципиальное отличие операций в сетевой и реляционной базах данных?
19. Чем характеризуется иерархическая модель данных?
20.Опишите правило концевого прохождения значений данных в иерархической модели.
21.В чем преимущества реляционной базы данных?
22.Что такое инвертированный файл и список связи?
23.Когда примеряются инвертированные файлы?
Глава 3. Методы организации данных
3.1 Методы организации данных в памяти ЭВМ
Под организацией значений данных понимают относительно устойчивый порядок расположения записей данных в памяти ЭВМ и способ обеспечения взаимосвязи между данными.
Организация данных может быть линейной и нелинейной.
Среди линейных методов выделяются последовательная и цепная организации данных.
К нелинейным относятся древовидная, в том числе бинарное дерево.
Наиболее важными и часто применяемыми алгоритмами обработки данных являются формирование данных, поиск и корректировка. Поэтому для анализа эффективности каждого метода организации данных будем анализировать следующие критерии:
а) время формирования данных, или упорядочение данных по ключевому атрибуту;
б) время поиска данных (поиск по совпадению). Нахождение значения ключевого атрибута равного заранее известной величине;
в) время корректировки данных, т.е. включение или исключение одной записи;
г) объем дополнительной памяти. Например, для адресов связи.