Виды информации, хранимой в Интернете и профессиональных базах

Информация о предметной области, то есть об объектах и их свя­зях, может быть представлена в двух видах: формализованном и в виде текста на естественном языке.

Формализованное описание конкретного объекта включает имя свой­ства (характеристики) и значение этого свойства для данного объекта. Имя свойства отражает ту грамматическую роль, которую играет значение этого свойства по отношению к данному классу объектов. Значение свойства (характеристики) может задаваться нормированным словарем или произвольно. Формализованный язык описания предметной об­ласти выполняет следующие основные функции:

• позволяет источнику отбирать лишь ту информацию и описы­вать ее так, как это необходимо потребителю;

• позволяет в базах данных отражать информацию в том же виде, в каком она отражена в сознании специалиста в данной предмет­ной области;

• позволяет в информационных системах по указанию потреби­теля производить автоматическую обработку формализованной информации;

• существенно облегчает поиск необходимой информации в базах данных.

 

Другим видом информации о предметной области является инфор­мация, представленная в виде текста на естественном языке.

Язык — это средство, с помощью которого люди передают друг другу информацию о реальном мире. Словарные выражения являются материальной формой понятий и представлений. Естественный язык сформировался в результате длительного развития общества. Поскольку для различных слоев общества характерна разная степень общности представлений, возникла многозначность слов естественно­го языка: одно и то же слово приобретало множество различных зна­чений, и для одного и того же слова использовалось несколько словес­ных выражений. Таким образом, общими недостатками естественного языка с позиций оценки эффективности поиска являются избыточ­ность и недостаточность.

Избыточность проявляется в следующем:

1) активную роль в процессе передачи содержания текста играют только некоторые слова или словосочетания, так называемые ключевые слова. Другие можно отбросить практически без ущер­ба для понимания смысла;

2) в естественном языке используются синонимы, то есть слова, раз­личающиеся по звучанию и написанию, но тождественные или близкие по смыслу;

3) имеет место неоднозначность выражения, то есть возможность выразить одну и ту же мысль словами, не являющимися сино­нимами (например, «уменьшение сопротивления» — «увеличение проводимости»).

Недостаточность выражения на естественном языке проявляется в следующем:

1) многозначность отдельных слов — омонимия (совпадение по зву­чанию и написанию разных по значению слов). Например, «ключ» (для двери), «ключ» (источник);

2) эллипсность естественного языка. Под эллипсностью понимает­ся пропуск в тексте подразумеваемых слов.