Методы приобретения знаний
Рассматривая методы приобретения знаний, будем использовать следующие термины: извлечение, получение, формирование, приобретение знаний и обучение БЗ. Определим сущность указанных терминов. Под извлечением знаний будем понимать процесс приобретения материализованных знаний из текстологических источников информации с помощью некоторой совокупности методов и процедур, позволяющих переходить от знаний в текстовой форме к их аналогам для ввода в базу знаний СИИ. Получение знаний – это процесс приобретения вербализуемых и невербализуемых знаний эксперта, основанный на использовании непосредственно им самим или инженером по знаниям приемов, процедур, методов и инструментальных средств.
Формирование знаний – это процесс автоматического приобретения (порождения) системой искусственного интеллекта или инструментальным средством нового и полезного знания из исходной и текущей информации, которое в явном виде не формируют эксперты, в целях освоения новых процедур решения прикладных задач на основе использования различных моделей машинного обучения. Под приобретением знаний будем понимать процесс, основанный на переносе знаний из различных источников в базу знаний путем использования различных методов, моделей, алгоритмов и инструментальных средств.
Понятие получение знаний соотносится с понятиями извлечение, приобретение, формирование знаний как часть-целое.
Обучение базы знаний – это процесс ввода (переноса) приобретенных знаний в СИИ на основе применения совокупности методов, приемов и процедур в целях ее заполнения, расширения и модификации. Термин обучение рассматривается как свойство БЗ, как совокупность методов, приемов и процедур ввода знаний в БЗ и как процесс переноса знаний в СИИ.
Большинство методов извлечения и получения знаний основано на прямом диалоге с экспертом.
Методы извлечения знаний. Они состоят из текстологических методов и методов автоматической обработки текстов.
Текстологические методы предназначены для получения инженером по знаниям знаний из материализованных источников, в качестве которых выступают монографии, учебники, статьи, методики, инструкции и другие носители профессиональных знаний. Текстологические методы, несмотря на их простоту и тривиальность, являются наименее разработанными. Эти методы основываются не только на выявлении и понимании смысла текста, но и на выделении базовых понятий и отношений, т. е. формировании семантической (понятийной) структуры ПрО.
Процесс понимания является сложным и неформализуемым, на него существенно влияют когнитивный стиль инженера по знаниям и его интеллектуальные характеристики. В инженерии знаний разработана методика анализа текстов в целях извлечения и структурирования знаний. Методика предусматривает овладение инженером по знаниям микроструктурой текста, вычленение ключевых слов (компрессию или сжатие текста) и последующее формирование поля знаний.
Сжатие текста служит методологической основой для использования текстологических процедур извлечения знаний. Текстологические методы являются самыми трудоемкими и применяются, как правило, на начальном этапе создания СИИ.
Значительное развитие получили методы извлечения знаний при применении современных информационных технологий, в частности гипертекстовой технологии.
Гипертекст – это организация нелинейной последовательности записи и чтения информации, объединенной на основе ассоциативной связи. Синтез этой концепции и полиморфизма приводит к новой концепции гипермедиа, в рамках которой между информацией, представленной в различной форме (текстовой, графической и других), организуются ассоциативные связи.
Эти новые концепции работы со знаниями создают предпосылки для решения проблемы эффективности процесса приобретения знаний.
Усилия исследователей в области инженерии знаний направлены на создание формальных методов извлечения знаний. К их числу можно отнести метод автоматической обработки текстов на основе статистической обработки семантических единиц. Метод и программные средства автоматизированного извлечения знаний из текстов базируются на формальных процедурах обнаружения в текстах семантических единиц различной выраженности.
Семантические единицы получаются путем статистической обработки текстов, в основе которой лежат универсальные механизмы определения частотных характеристик терминов. Задача извлечения знаний решается в два этапа: сначала формируется терминологическая сеть (поле знаний), а затем определяется ассоциативная близость терминов на основе статистически определенной меры ассоциации. Достоинство рассмотренного метода состоит в автоматическом выявлении значимых слов и связей с учетом статистической информации о гипертексте в целом.
Указанные новые подходы к автоматизации извлечения знаний пока находятся на стадии исследований и не нашли применения в практике создания СИИ. Однако результаты исследований позволяют надеяться на создание эффективных методов и СИИ, позволяющих снизить трудозатраты при извлечении знаний на начальном этапе синтеза баз знаний СИИ.
Методы получения экспертных знаний. К ним относятся следующие методы: коммуникативные (пассивные и активные), основанные на прямом диалоге экспертов и инженеров по знаниям как без использования СИИ, так и с применением СИИ (технологии окон, меню); психосемантики и тестирования БЗ.
Коммуникативные методы получения знаний рассматриваются как разновидности интервьюирования. Для них характерны следующие основные особенности:
1. Не имеют формального определения и носят качественный характер. Полученные с их помощью знания несут на себе отпечаток самонаблюдений эксперта и субъективную интерпретацию инженера по знаниям.
2. Требуют словесного выражения экспертом своих знаний, что является непростой задачей. Неточность и неадекватность словесных описаний мыслительных процессов и применяемых эвристических приемов, используемых при решении задач, ведут к серьезным последствиям.
3. Сложность выражения процедурных знаний при их словесном описании.
4. Крайняя сложность явного описания знаний, которые являются результатом компиляции и автоматизма процессов мышления, а также интуиции эксперта. В психологии доказано, что интуиция на самом деле является способностью распознавать образы. Однако словесное описание способности к распознаванию образов дать крайне трудно.
5. Трудоемкость организации и неэффективность взаимодействия инженера по знаниям и эксперта. На них приходятся большие интеллектуальные нагрузки, связанные с вербализацией знаний, управлением процессом коммуникации и необходимостью освоения, анализа и документирования больших объемов новых знаний.
Коммуникативные методы получения знаний отличаются своей низкой эффективностью. Так, при непосредственном взаимодействии инженера по знаниям и эксперта теряется до 76% информации.
Один из путей совершенствования процесса приобретения знаний состоит в разработке методов, позволяющих передать часть функций, выполняемых инженером по знаниям, самому эксперту или СИИ.
Методы формирования знаний. Трудности извлечения знаний из текстовых источников и получения их от экспертов стимулировали развитие методов формирования знаний, известных, как методы “машинного обучения”.
Для развитых СИИ способность обучаться, т. е. самостоятельно формировать новые знания на основе текущих знаний, собственного опыта решения прикладных задач, является их существенной характеристикой. Методы формирования знаний лежат в основе автоматических систем приобретения знаний.
Автоматические системы формирования знаний являются более предпочтительными, так как уменьшается вероятность ошибок в приобретаемых знаниях и снижается время их приобретения.
Главный вопрос, на который должны ответить методы формирования знаний, состоит в следующем: как от частного (примера) перейти к общему (обобщениям)?
Базисом всех методов формирования знаний является индукция, которая лежит в основе получения общих выводов из совокупности частных утверждений.