Лекция 10
Некоторые проблемы поиска и хранения информации в ИПС (продолжение)
Важной функцией ИПС является хранение накопленной информации. Фактически от выполнения этой функции зависит качество системы. Чем не больше данных хранит ИПС, тем выше качества работы такой системы. В процессе развития способов хранения информации увеличивался и объем хранимых данных. Многие хранилища данных, которые обслуживаются с помощью ИПС, сохраняют информацию в виде твердых копий, т.е. в виде напечатанной на бумаге и сброшюрованной в книги текстовой информации, иллюстрации и т.д.
Такая форма хранения является основной в настоящее время потому, что человечество накопило информацию именно в таком виде.
Большую роль сыграл способ хранения документов (копий документов), которые называются микрофильмированием. Этот способ изобретен около 150 лет назад парижским фотографом Догроный.
В 1870 году с помощью микрофильмов была организованна передача почты между осажденным Парижем и Туром. Письма проектировались на экран, с которого их затем переписывали. Почтой Догрона в осажденный город было доставлено 115 тыс. телеграмм и 0,5 млн. писем.
В течение длительного промежутка времени микрофильм не использовался, но нашел применение с 50-60-х годов, когда появились читально-копировальные аппараты. Такие устройства используются во всех крупнейших библиотеках. Накоплен значительный объем микрофильмов.
Главным преимуществом микрофильмов является его малый объем. Плотность хранения соизмерим с плотностью хранения информации в электронном виде.
Наряду с микрофильмами существуют микрофиши.
Вместе с тем недостатком хранения в виде микрофильма является ограниченный срок копий, сложность поиска информации в тексте.
Информацию из книг и даже информацию из компьютеров можно переводить в различного рода микрофильмы с помощью скоростных микрофотопечатающих устройств. Производительность таких машин 300-500 страниц в минуту.
Существующие системы хранения информации позволяют хранить информацию на оптических дисках, причем такие устройства представляют собой достаточно сложное сочетание электронных и механических устройств, которые позволяют хранить информацию в больших массивах дисков, хранящихся в ячейках кассет. Поиск и извлечение дисков осуществляется с помощью электрического механического устройства.
Для хранения больших массивов информации используются новые технологии и технические средства. БД – это распределенные БД, основанные на сетевых технологиях. Для хранения используются специальное программное обеспечение и новые концепции хранения информации, которые называются базы знаний, киоски данных, хранилища данных.
Для хранения данных используются специальные технические средства. Это многодисковые накопители, устройства на CD и DVD дисках кассетного типа, на магнитной ленте.
Одним из важных показателей качества функции хранения является стоимость хранения одного бита или байта информации.
Важной проблемой для любой ИС является проблема эффективного извлечения информации. Здесь важными особенностями является следующее: время извлечения, релевантность, ИПЯ, стоимость.
Обслуживание информационных систем, которые находятся в эксплуатации в настоящее время, и способы их функционирования имеют свои особенности. Например, АСИТФ реферат пополняет 110-115 тыс. документов ежегодно. Рефераты документов наносятся на специальные реферативные бланки, которые затем микрофильмируются. Поисковые образы заносятся в память ЭВМ. Процесс обслуживания включает: сбор и индексирование запросов (формирование ПОЗ); поиск микрофотокопии нужного реферативного бланка в автоматизированном накопителе микрофильмирного аппарата; печать микрофильма на бумаге; рассылка копий по почте или Интернету.
В США разработана система Медларс в области медицины, которая ежемесячно индексирует по 15 параметрам и сохраняет информацию из 2030 журналов. Ежегодно аккумулирует информацию из 20 тыс. статей и 16 тыс. монографий.
Автоматизация, внедрясь в сферу обработки информации, увеличивает способность управления информационными потоками. Однако существующий информационный кризис не исчез с появлением автоматизации, а лишь изменился.
Информационный кризис нельзя было бы преодолеть вообще, если бы информация не обладала свойством кумулятивности. Это свойство концентрации содержания документа в какой-то краткой форме, например в виде реферата, а математическую статью в виде нескольких формул. Извлечь из документа его основной смысл – это задача аналитико-синтетической обработки документов, решение которой позволяет не только уменьшить физический объем документов при сохранении их основного содержания, но и синтезировать новую информацию.
В начале 60-х годов в нашей стране были созданы информационные органы, которые осуществляли аналитико-синтетическую обработку источников информации и подготавливали на этой базе информационные издания, содержащие фактографические данные.
На промышленных предприятиях также организуются подразделения анализа и обобщения информации, в которых работают специалисты по тематике предприятия.
Деятельность центра анализа информации позволяет руководству принимать обоснованные управленческие решения на информационной и экономической основе. За рубежом также уделяется большое внимание центрам анализа и обработки информации. Например, по данным США эффект от деятельности анализа информации составляет 4,2$ на 2$ затрат.
В России существует государственная система научно-технической информации (ГСНТИ). Ведущая роль в этой системе принадлежит Всероссийскому институту научно-технической информации (ВИНТИ), издающему реферативный журнал.
Существуют и другие информационные центры. Например, ВНТИЦ (Всероссийский научно-технический информационный центр), ВЦП (Всероссийский центр переводов), ВНИКИД (Всероссийский научно-технический институт классификации и кодирования).