Средние значения полноты и точности для конкретной системы обычно вычисляют путем тестирования ее на эталонной базе документов.

В зависимости от требований к количеству и качеству выдаваемой ИПС информации выбираются разные критерии выдачи. Если важно не упустить нужную информацию (патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемой информации (библиотека) - следует улучшить точность.

Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой и точностью поиска в одной системе (при использовании одного и того же информационно-поискового языка), т.е. повышение точности ведет к увеличению шума и, наоборот, при уменьшении шума снижается точность. Улучшить оба эти показателя одновременно можно, только внося изменения в информационно-поисковый язык, делая грамматику и тезаурус более лингвистически развитыми. При этом достижение максимально возможной полноты поиска связано с огромными сложностями. Последние 5-10% требуют такого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет за собой увеличение трудоемкости обработки входной информации и времени поиска.

Другой группой показателей оценки эффективности доку­ментальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические пока­затели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность- это субъективно оцениваемое соответст­вие содержания документов или текстов информационным инте­ресам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, получен­ных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в про­фессиональных базах и деловых ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Если в 1985 г. доля текстовой инфор­мации составляла 47%, то в 2000 г. эта доля была уже 84%. Пред­ставляется, что основная информация в Интернете также являет­ся текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональ­ные базы, и на информационные ресурсы Интернета.

Рассмотрим специфику информационных ресурсов Интер­нет и имеющихся в среде Интернета поисковых средств, кото­рые оказывают существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги.

В связи с тем, что в средствах поиска в Интернете не исполь­зуются информационно-поисковые языки, на которых должны были быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом описанных выше поисковых средств будет значительно ниже, чем в документальных систе­мах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска (индекс) лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых ма­шин .

Особенности информационных ресурсов Интернета и поис­ковых средств позволяют сделать вывод о том, что эффектив­ность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных инфор­мационно-поисковых системах, использующих специальные ин­формационно-поисковые языки, и эффективности поиска в про­фессиональных базах. Эти обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, кото­рые необходимы для получения нужной информации из инфор­мационных ресурсов Интернета.

Организация информации в профессиональных базах отли­чается от организации информации в Интернете в первую оче­редь тем, что информация накапливается и постоянно обновля­ется в базах данных. В каждой базе накапливается специфичная информация. Отбор достоверных источников и накопление информации ведут ин­формационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, т. е. обновляют. Предоставле­ние информации из баз потребителям осуществляют агентства-поставщики. Потребителю предоставляется язык запроса и до­кументация, характеризующая базы данных. По каждой базе имеется название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной инфор­мации, период обновления, источники предоставления инфор­мации.

Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой инфор­мации в про­фессиональных базах .

Одним из важнейших показателей, характеризующих полу­ченную из других источников информацию, является ее достоверность.

Достоверность— это степень соответствия информа­ции об объекте его реальному состоянию.

При оценке достоверности большое значение имеет уровень подготовки специалиста, оценивающего достоверность инфор­мации, его эрудиция, знание предметной области. Одним из дей­ственных методов является сравнение значения признака объек­та с возможными границами его значений.

Искажения информации могут быть самой различной при­роды. Это могут быть случайные и систематические (методичес­кие) ошибки, а также преднамеренные искажения и дезинфор­мация.

Можно выделить несколько обобщенных подходов к оценке достоверности информации.

1. Выявление, к каким источникам относится поступающая информация — первичным или вторичным.

2. Определение надежности источника информации.

3. Выявление логических несоответствий в поступающей информации. Изучение контекста, в котором излагаются определенные факты и сведения.

4. Выделение информации, основанной на предрассудках, обмане или манипуляции, которая может являться пропагандой, рекламой или не соответствующей действительности.

В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источ­ники должны регулярно оцениваться по степени достоверности поступающей от них информации.


Раздел 2. Программные средства, используемые для создания электронных информационных ресурсов