Интеллектуальные информационные системы
Лекция 5. Методы приобретения и извлечения знаний
Методы приобретения знаний
Основной проблемой при разработке современных интеллектуальных систем является проблема приобретения знаний, т.е. преобразование разного вида информации (данных) из внешнего представления в представление в виде знаний, пригодное для решения задач, для которых создается интелектуальная система. Эту проблему часто называют проблемой извлечения знаний из данных (в более общем виде, из внешнего мира), которая сводится к задаче обучения интеллектуальной системы.
Примерами задач приобретения знаний являются:
- выявление причинно-следственных связей между атрибутами реляционной базы данных и формирование их в виде правил в продукционной экспертной системе;
- формирование программы (или правил) решения задачи (например, планирования производственного процесса или поведение робота) на основе примеров удачного планирования, вводимых в компьютер;
- выявление информативных признаков для классификации объектов, существенных с точки зрения решаемой задачи.
Обучающиеся системы можно классифицировать по двум основным признакам:
1. уровень, на котором происходит обучение:
1.1.обучение на символьном уровне (SLL – symbol level learning), при котором происходит улучшение представления знаний на основе опыта, полученного при решении задач,
1.2.обучение на уровне знаний (KLL – knowledge level learning), при котором происходит формирование новых знаний из существующих знаний и данных.
2. применяемый метод обучения:
2.1.аналитические методы обучения:
2.1.1. использующие глубинные (knowledge-rich) знания,
2.1.2. использующие поверхностные (knowledge-drizen) знания;
2.2.эмпирические методы обучения:
2.2.1. использующие знания (knowledge-learning),
2.2.2. использующие данные (data-drizen).
На символьном уровне обучение сводится к манипулированию уже существующими структурами, представляющими знание, например, корректировка коэффициентов достоверности правил-продукций, изменение порядка расположения (просмотра) правил-продукций в базе знаний вводимого пользователем описания решения задачи на достаточно формализованном языке, не сильно отличающимся от языка, на котором представляются знания в системе.
На уровне знаний обучение сводится к выявлению и формализации новых знаний. Например, из фактов
журавль умеет летать,
воробей умеет летать,
синица умеет летать,
журавль есть птица,
воробей есть птица,
синица есть птица,
система может сформулировать правило-продукцию:
Если Х есть птица, то Х умеет летать.
Помимо вышеуказанной классификации в инженерии знаний известны три основных подхода к приобретению знаний:
1. индуктивный вывод,
2. вывод по аналогии,
3. обучение на примерах.
В основе индуктивного вывода лежит процесс получения знаний из данных и/или других знаний (в продукционных системах – правил из фактов и/или других правил).
Вывод по аналогии основан на задании и обнаружении аналогий между объектами (ситуациями, образами, постановками задачи, фрагментами знаний) и применением известных методов (процедур) к аналогичным объектам.
В основе обучения на примерах лежит демонстрация системе и запоминание ей примеров решения задач. Резкой границы между этими методами не существует, т.к. все они базируются на обобщении, реализованной в той или иной форме, т.е. реализуют переход от более конкретного знания (фактов) к более абстрактному знанию.
На рисунке 5.1 показана классификация обучающихся систем и взаимосвязи между понятиями, связанными с приобретением знаний привденная в работе.

Рисунок 5.1. Классификация обучающихся систем
Наиболее известными методами приобретения знаний являются:
- ДСМ-метод (обычно относится к индуктивным методам), - нейронные сети (в них реализовано в наиболее явном виде обучение на примерах). В ДСМ-методе используется представление знаний об экспериментах (наблюдениях), подтверждающих причинно-следственные связи между факторами, в виде матрицы гипотез:

где ai – факторы-причины,
bj – факторы-следствия,
qij – оценки истинности (силы) причинно-следственной связи между соответствующими факторами.
Оценка истинности определяется в процессе обучения (экспериментов или наблюдений) как k + /k, k - общее количество экспериментов (примеров), а k + – количество экспериментов, подтверждающих причинно-следственную связь (положительных примеров).
Таким образом, после обучения мы имеем матрицу со значениями qij в пределах интервала (0, 1). Если значение qij ≈1, это означает, что между факторами ai и bj есть причинно-следственная связь и ее можно записать в виде правила. Иногда в ДСМ-методе используется и матрица отрицательных примеров M.
Социальные сети