Лекция 5. Методы приобретения и извлечения знаний

Методы приобретения знаний

Основной проблемой при разработке современных интеллектуальных систем является проблема приобретения знаний, т.е. преобразование разного вида информации (данных) из внешнего представления в представление в виде знаний, пригодное для решения задач, для которых создается интелектуальная система. Эту проблему часто называют проблемой извлечения знаний из данных (в более общем виде, из внешнего мира), которая сводится к задаче обучения интеллектуальной системы.

Примерами задач приобретения знаний являются:

- выявление причинно-следственных связей между атрибутами реляционной базы данных и формирование их в виде правил в продукционной экспертной системе;

- формирование программы (или правил) решения задачи (например, планирования производственного процесса или поведение робота) на основе примеров удачного планирования, вводимых в компьютер;

- выявление информативных признаков для классификации объектов, существенных с точки зрения решаемой задачи.

Обучающиеся системы можно классифицировать по двум основным признакам:

1. уровень, на котором происходит обучение:

1.1.обучение на символьном уровне (SLL – symbol level learning), при котором происходит улучшение представления знаний на основе опыта, полученного при решении задач,

1.2.обучение на уровне знаний (KLL – knowledge level learning), при котором происходит формирование новых знаний из существующих знаний и данных.

2. применяемый метод обучения:

2.1.аналитические методы обучения:

2.1.1. использующие глубинные (knowledge-rich) знания,

2.1.2. использующие поверхностные (knowledge-drizen) знания;

2.2.эмпирические методы обучения:

2.2.1. использующие знания (knowledge-learning),

2.2.2. использующие данные (data-drizen).

На символьном уровне обучение сводится к манипулированию уже существующими структурами, представляющими знание, например, корректировка коэффициентов достоверности правил-продукций, изменение порядка расположения (просмотра) правил-продукций в базе знаний вводимого пользователем описания решения задачи на достаточно формализованном языке, не сильно отличающимся от языка, на котором представляются знания в системе.

На уровне знаний обучение сводится к выявлению и формализации новых знаний. Например, из фактов

журавль умеет летать,

воробей умеет летать,

синица умеет летать,

журавль есть птица,

воробей есть птица,

синица есть птица,

система может сформулировать правило-продукцию:

Если Х есть птица, то Х умеет летать.

Помимо вышеуказанной классификации в инженерии знаний известны три основных подхода к приобретению знаний:

1. индуктивный вывод,

2. вывод по аналогии,

3. обучение на примерах.

В основе индуктивного вывода лежит процесс получения знаний из данных и/или других знаний (в продукционных системах – правил из фактов и/или других правил).

Вывод по аналогии основан на задании и обнаружении аналогий между объектами (ситуациями, образами, постановками задачи, фрагментами знаний) и применением известных методов (процедур) к аналогичным объектам.

В основе обучения на примерах лежит демонстрация системе и запоминание ей примеров решения задач. Резкой границы между этими методами не существует, т.к. все они базируются на обобщении, реализованной в той или иной форме, т.е. реализуют переход от более конкретного знания (фактов) к более абстрактному знанию.

На рисунке 5.1 показана классификация обучающихся систем и взаимосвязи между понятиями, связанными с приобретением знаний привденная в работе.

Рисунок 5.1.  Классификация обучающихся систем

Наиболее известными методами приобретения знаний являются:

- ДСМ-метод (обычно относится к индуктивным методам), - нейронные сети (в них реализовано в наиболее явном виде обучение на примерах). В ДСМ-методе используется представление знаний об экспериментах (наблюдениях), подтверждающих причинно-следственные связи между факторами, в виде матрицы гипотез: 

где ai – факторы-причины,

bj – факторы-следствия,

qij – оценки истинности (силы) причинно-следственной связи между соответствующими факторами.

Оценка истинности определяется в процессе обучения (экспериментов или наблюдений) как k + /k, k - общее количество экспериментов (примеров), а k + – количество экспериментов, подтверждающих причинно-следственную связь (положительных примеров).

Таким образом, после обучения мы имеем матрицу со значениями qij в пределах интервала (0, 1). Если значение qij ≈1, это означает, что между факторами ai и bj есть причинно-следственная связь и ее можно записать в виде правила. Иногда в ДСМ-методе используется и матрица отрицательных примеров M.