Лекция 8
Информационно-поисковые языки (ИПЯ)
Из теории следует, что для документальных ИПС не может быть разработан ИПЯ, который обеспечивал бы 100%-ю полноту и точность выдачи документов. Однако это не значит, что не надо стремиться к максимально точной передаче содержания документов при переводе их на ИПЯ.
Качество ИПС во многом зависит от качества ИПЯ, поэтому выбор ИПЯ очень важен для документальных ИПС. В настоящее время разработано большое количество различных типов ИПЯ. Например, существуют ИПЯ классификационного типа. Другой тип ИПЯ – дескрипторного типа.
ИПЯ классификационного типа основан на различных классификациях. Работа ИПС с такими ИПЯ схематично выглядит так: каталог крупной библиотеки, организованный по УДК, записывается на машинный носитель информации. Запросы, поступающие от потребителей информации, также индексируются по УДК. ЭВМ выполняет процесс сравнения ПОД и ПОЗ, которые выражены на одном и том же ИПЯ – это УДК. При совпадении индексов документов с индексом запросов машина выдает ответ на запрос. Если необходимо увеличить полноту выдачи документов, то можно потребовать частичного совпадения индексов УДК ПОД и ПОЗ, изменяя т.о. критерий смыслового соответствия. Т.о. пользователь управляет процессом поиска, добиваясь его нужных характеристик.
ИПЯ классификационного типа широко используются в АИПС промышленного назначения.
Такие АИПС применяются при поиске аналогов проектированных деталей с целью заимствования технологического процесса для их обработки.
Применение ИПЯ классификационного типа в АИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификаций, что невозможно. В связи с этим в АИПС предпочтение отдается ИПЯ дескрипторного типа.
Под дескрипторами понимаются термины естественного языка, выражающие определенные понятия.
Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания называется информационно-поисковым тезаурусом (ИПТ).
Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов входящих в его состав. На практике эта идея реализуется следующим образом: текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова несущие основную смысловую нагрузку (ключевые слова). При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором ИПТ. Совокупность терминов тезауруса, а именно дескрипторов, заменивших ключевые слова, образуют ПОД.
Качество работы ИПЯ дескрипторного типа зависит от совершенства применяемого ИПТ.
Например, в ИПТ может быть несколько терминов различных по форме, но определяющих одно и тоже понятие (синонимы). Кроме того, в тезаурусе должны быть отражены некоторые отношения между терминами, такие как род – вид, часть – целое. Это позволяет повысить точность и полноту поиска. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые являются дескрипторами. Например: термины абразивы порошкообразные и порошки абразивные выражают одно и тоже понятие. Это понятие в тезаурусе должны быть представлено только одним термином. Значит, что при запросе на термин абразивы порошкообразные не будут выданы документы, содержащие порошки абразивные, т.е. мы потеряем часть информации.
Синонимия в тезаурусах ликвидируется следующим образом: в качестве дескрипторов выбирается один термин (абразивы порошкообразные), а другой снабжает отсылкой к первому или пометкой (например, см. порошки абразивные).
Если из нескольких синонимов один выбран в качестве дескриптора, то остальные получают название ключевых слов.
Наличие в тезаурусе ключевых слов с отсылкой к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.
Первые тезаурусы для задач информационного поиска, оформленные в виде книг, были разработаны в начале 60-х годов.
Наиболее известные ИПТ: тезаурус АСТИА (агентств службы технической информации США) 1962г.; содержит технических и научных терминов 23000 слов, из которых 17000 являются дескрипторами; тезаурус «Евроатома» 1967г.; тезаурус по химии и химической промышленности 1973г; тезаурус дескрипторов по образованию США 1967г.