Недостатки файловых систем
Лекция. Информационные системы, использующие базы данных
Содержание лекции:необходимость появления баз данных.
Цель лекции:изучить недостатки файловых систем и причины появления информационных систем, использующих базы данных.
Несмотря на появление файлов с произвольным доступом, быстро стало очевидным, что файловые системы любого типа обладают некоторыми недостатками.
Эти недостатки следующие:
1. избыточность данных. Многие приложения используют свои собственные файлы данных, и следовательно, одна и та же единица данных повторяется в различных файлах. Например, в банке одно и то же имя клиента встречается в файлах, содержащих сведения о сберегательных, текущих счетах, о ссудах. Более того, хотя это одно и то же имя клиента, соответствующие поля в разных файлах могут называться по-разному. Кроме того, одно и то же поле в разных файлах может иметь разную длину. Вследствие такой избыточности необходимы лишние затраты на поддержание и хранение данных. Эта избыточность может порождать противоречия между разными версиями общих данных.
Информационные системы, использующие базы данных, позволяют избавиться от подобной избыточности, поскольку все приложения используют один и тот же набор данных. Существенная информация записывается один раз. То есть все приложения будут пользоваться согласованными данными;
2. слабый контроль данных. В файловой системе нет централизованного контроля. Один и тот же элемент данных может иметь различные имена, терминология в различных отделах может быть разной. Например, банк может в термин счет вкладывать один смысл применительно к сбережениям и совсем другой применительно к ссудам. Разные значения одного и того же термина называют омонимами. И, наоборот, разные слова могут иметь одинаковые значения. Например, банк может говорить о владельце счета или клиенте, вкладывая в этот термин один и тот же смысл. Термины, имеющие одно и то же значение, называются синонимами.
Система управления базами данных осуществляет централизованный контроль данных и помогает избежать недоразумений, порожденных омонимами и синонимами.
Далее, поскольку файловые системы являются общим хранилищем файлов, принадлежащих, вообще говоря, разным пользователям, системы управления файлами должны обеспечивать авторизацию доступа к файлам. В общем виде подход состоит в том, что по отношению к каждому зарегистрированному пользователю данной вычислительной системы для каждого существующего файла указываются действия, которые разрешены или запрещены данному пользователю.
В большинстве современных систем управления файлами применяется подход к защите файлов, впервые реализованный в ОС UNIX. В этой ОС каждому зарегистрированному пользователю соответствует пара целочисленных идентификаторов: идентификатор группы, к которой относится этот пользователь, и его собственный идентификатор в группе. При каждом файле хранится полный идентификатор пользователя, который создал этот файл, и фиксируется, какие действия с файлом может производить его создатель, какие действия с файлом доступны для других пользователей той же группы и что могут делать с файлом пользователи других групп. Администрирование режимом доступа к файлу в основном выполняется его создателем-владельцем. Для множества файлов, отражающих информационную модель одной предметной области, такой децентрализованный принцип управления доступом вызывал дополнительные трудности. И отсутствие централизованных методов управления доступом к информации послужило еще одной причиной разработки СУБД;
3. недостаточные возможности управления данными. Индексные файлы позволяют обращаться к определенной записи по ключу. Этого достаточно до тех пор, пока нам нужна отдельная запись. Если же нам нужен набор связанных данных, то такую информацию трудно или даже невозможно извлечь из файловой системы. Это связано с тем, что файловые системы не позволяют устанавливать связь между данными разных файлов.
Системы управления базами данных были специально разработаны для того, чтобы упростить связывание данных из разных файлов;
4. большие затраты труда программиста. В файловой системе новая прикладная программа требует нового набора файлов. Даже если существующий файл содержит необходимую информацию, приложению требовался еще какой-либо набор данных. В результате программисту надо писать еще одну программу. То есть между данными и программами существовала жесткая зависимость.
Базы данных позволили разделить программы и данные, так что программа в некотором смысле независима от деталей определения данных;
5. следующей причиной стала необходимость обеспечения эффективной параллельной работы многих пользователей с одними и теми же файлами. В общем случае системы управления файлами обеспечивали режим многопользовательского доступа. Если операционная система поддерживает многопользовательский режим, вполне реальна ситуация, когда два или более пользователя одновременно пытаются работать с одним и тем же файлом. Если все пользователи собираются только читать файл, ничего страшного не произойдет. Но если хотя бы один из них будет изменять файл, для корректной работы этих пользователей требуется взаимная синхронизация их действий по отношению к файлу.
В системах управления файлами обычно применялся следующий подход. В операции открытия файла (первой и обязательной операции, с которой должен начинаться сеанс работы с файлом) среди прочих параметров указывался режим работы (чтение или изменение). Если к моменту выполнения этой операции некоторым пользовательским процессом PR1 файл был уже открыт другим процессом PR2 в режиме изменения, то в зависимости от особенностей системы процессу PR1 либо сообщалось о невозможности открытия файла, либо он блокировался до тех пор, пока в процессе PR2 не выполнялась операция закрытия файла.
При подобном способе организации одновременная работа нескольких пользователей, связанная с модификацией данных в файле, либо вообще не реализовывалась, либо была очень замедлена.
Эти недостатки послужили тем толчком, который заставил разработчиков информационных систем предложить новый подход к управлению информацией. Этот подход был реализован в рамках новых программных систем, названных впоследствии Системами Управления Базами Данных (СУБД), а сами хранилища информации, которые работали под управлением данных систем, назывались базами или банками данных (БД и БнД).