Интеллектуальные информационные системы
Лекция 5. Методы приобретения и извлечения знаний
Методы извлечения знаний из данных
Методы извлечения знаний состоят из:
- текстологических методов,
- методов автоматической обработки текстов.
Текстологические методы предназначены для получения инженером по знаниям знаний из материализованных источников (монографии, учебники, статьи методики, инструкции и другие носители профессиональных знаний). Эти методы основываются не только на выявлении и понимании смысла текста, но и на выделении базовых понятий и отношений, т. е. формировании семантической (понятийной) структуры.
В инженерии знаний разработана методика анализа текстов в целях извлечения и структурирования знаний.
Методика анализа текстов в целях извлечения и структурирования знаний предусматривает:
- анализ микроструктуры текста,
- вычленение ключевых слов (компрессия или сжатие текста),
- формирование поля знаний на базе одного из языков представления знаний.
Сжатие текста служит методологической основой для использования текстологических процедур извлечения знаний. Текстологические методы самые трудоемкие, они применяются, как правило, на начальном этапе создания СИИ.
Существенное развитие получили методы извлечения знаний при использовании современных информационных технологий, в частности гипертекстовой технологии.
Гипертекст — это организация нелинейной последовательности записи и чтения информации, объединенной на основе ассоциативной связи. Синтез этой концепции и полиморфизма при водит к новой концепции, в рамках которой между информацией, представленной в различной форме (текстовой, графической и других), организуются ассоциативные связи.
Эти новые концепции работы со знаниями создают предпосылки для решения проблемы эффективности процесса приобретения знаний. Усилия исследователей в области инженерии знаний направлены на создание формальных методов извлечения знаний. К их числу можно отнести метод автоматической обработки текстов на основе статистической обработки семантических единиц.
Метод автоматической обработки текстов на основе статистической обработки семантических единиц. При использовании данного метода семантические единицы получаются путем статистической обработки текстов, в основе которой лежат универсальные механизмы определения частотных характеристик терминов.
Задача извлечения знаний решается в два этапа:
1. сначала формируется терминологическая сеть (поле знаний),
2. определяется ассоциативная близость терминов на основе статистически определенной меры ассоциации.
Достоинство рассмотренного метода состоит в автоматическом выявлении значимых слов и связей с учетом статистической информации о гипертексте в целом.
Указанные новые подходы к автоматизации извлечения знаний пока находятся на стадии исследований и не нашли применения в практике создания СИИ. Однако результаты исследований позволяют надеяться на создание эффективных методов и систем искусственного интеллекта, позволяющих снизить трудозатраты при извлечении знаний на начальном этапе синтеза баз знаний СИИ.
Социальные сети