Система «OntoGrid» для построения онтологий Онтология - формальное явное описание терминов предметной области (ПрО) и отношений между ними (Gruber 1993) O= Назначение онтологии Системы обучения: полезно иметь в качестве «опорного сигнала» легко воспринимаемую структуру этой области, быстро находить ссылки на источники. Поисковые системы: поиск по семантически значимым фрагментам текстов с опорой на онтологию ПрО. Научные исследования: унификация терминологии ПрО, автоматическое отслеживание данных и знаний в потоке информации. 4. Интегрирование баз данных и знаний: установление семантической эквивалентности фактов и понятий, сформулированных в разных терминах. Автоматизация разработки и сопровождения онтологии (проект OntoGRID) Инструмент для эксперта ПрО, строящего онтологию. Средства распределенной разработки 2. Лингвистический процессор Лингвистическая база Интерфейс «семантика – онтология» 3. Методика использования онтологий 1 Инструмент для эксперта ПрО, строящего онтологию Protege Mark Musen, Stanford Medical Informatics 1992 Разработка онтологий 101: руководство по созданию Вашей первой онтологии Natalya F. Noy Deborah L. McGuinness Ontolingua Chimaera Средства распределенной разработки Integrated Development Enviroment (IDE) ASCONT Лингвистический процессор 1.Блок морфологического анализа. Блок статистического анализа текстов Гусев В.Д., Саломатина Н.В. 2. Система семантического анализа текста. «Визуализатор отношений» (ВизОт) Налетов А.М., Чурикова В.А., Соколова А.Н. Блок статистического анализа Назначение: выявление общенаучной, предметно-ориентированной и узкоспецифичной лексики; формирование индикаторных словарей, отражающих аспекты документа (целевая установка, метод решения, полученный результат и т.п.); формирование системы признаков для тематической классификации документов. Процедуры: вычисления L-граммных спектров; выделения устойчивых словосочетаний с учетом морфологической и комбинаторной изменчивости; выявления аномалий в позиционном распределении лексических единиц в тексте. L-граммное представление текстов ― анализируемая группа текстов; L-грамма ― цепочка из L подряд следующих нормализованных слов. Частотная характеристика L-го порядка группы текстов Т есть совокупность представленных в Т L-грамм с указанием частот встречаемости и распределения по отдельным текстам: , где ― пара: <i-я L-грамма ; вектор вхождений L-граммы в каждый из текстов подборки Т : >; ― размер словаря L-грамм; Совместный частотный спектр группы текстов Т есть совокупность частотных характеристик: , где ― длина максимальной цепочки слов, общей хотя бы для пары текстов. Фрагмент словаря аспектной лексики (по материалам конференции «Диалог’2002»; 146 докладов) Аспект: целевая установка; L = 2, 3 Биграммы: (Fтекст.,Fабс.) в/работа (60,110); в/статья (31,45); в/доклад (31,39); постановка/задача (14,16); наш/исследование (10,15); Триграммы: (Fтекст.,Fабс.) в/данный/работа(16,19); в/статья/рассматриваться(10,11); в/настоящий/работа (10,10); в/рамка/проект (8,12); в/работа/рассматриваться (7,7); в/данный/доклад (5,6); настоящий/работа/посвящать (5,6); данный/работа/посвящать (5,5); в/доклад/рассматриваться (5,5); Выделение«устойчивых»цепочек слов «Устойчивая цепочка» ― L-грамма (L ≥ 2), встречающаяся в большом числе разнообразных контекстов. Неустойчивой считается цепочка, которая может быть продол- жена как вправо, так и влево ограниченным числом способов. Примеры устойчивых цепочек: порядок слов; русский язык; как уже отмечалось, таким образом; в настоящее время; один и тот же; нетрудно видеть, что; предложение со скремблингом; неустойчивых цепочек: в русском; предложение со; посторонним вход; быть или не… Выявление позиционных аномалий Гипотеза: лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно более значимы, чем распределенные равномерно. Сканирующие статистики ― эффективный аппарат для выявления позиционных аномалий: d(n) ― длина минимального интервала, содержащего ровно n вхождений лексической единицы λ (2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте). Распределение d(n) при гипотезе H0 (равномерность) известно. Применение: оценка информативности лексических единиц; построение квазирефератов текста. Анализ текста в системе OntoGrid Формализм для представления смысла текста + алгоритмы анализа База лингвистических знаний предметной области Алгоритм построения семантического представления текста Интерфейс эксперта Задачи анализа текста Классификация текстов Реферирование Поиск по заданным концептам ………. Определение реализаций элементов онтологии в текстах Наполнение элементов онтологии ссылками на тексты Выявление «недогруженных» и «перегруженных элементов онтологии» ………. Анализ текста в системе OntoGrid Лингвистическая база знаний предметной области База реализаций отношений (БРО) -термины -реализации смысловых отношений Набор критичных фрагментов (НКФ) наборы неэлементарных словосочетаний, соответствующих существенным элементам ПрО Представление реализаций смысловых отношений в БРО Формирование БРО В ходе интерактивного анализа текста На основе предварительной статистической обработки текстов ПрО Использование обобщенных определений отношений (правил выделения в тексте) Редактирование БРО с помощью интерфейса ВизОт Пирамидальные сети Гладун В.П. Q-сети Текст рассматривается как иерархическая структура фрагментов, каждый из которых представляет некоторую семантическую цельность Построение семантического представления (СемП) текста Формирование понятий Доля j-го фрагмента в i-м понятии Шум j-го фрагмента для i-го понятия Окно диалога с системой Зародыш онтологии DM Онтология предметной области Data Mining (Onto-DM) - Какую область будет охватывать онтология Onto-DM?
- Для чего мы будем использовать онтологию Onto-DM?
-
- На какие вопросы должна давать ответы онтология Onto-DM?
- Кто будет разрабатывать, использовать и поддерживать онтологию Onto-DM?
Стрелки указывают на отношение: Случай Z является примером решения задачи Y методом X. Data Mining – область деятельности, связанной с обнаружением причинно-следственных зависимостей (закономерностей, знаний ) в массивах экспериментальных или статистических данных. Синонимы: Интеллектуальный анализ данных, Подъем данных,… Данные – множество отдельных фактов, значений признаков, … Синонимы: протокол наблюдений, data, data table Знание – утверждение об общих свойствах множества фактов, о зависимости между значениями признаков. Синонимы: закономерность, зависимость, regularity, … Объект – выделенный элемент изучаемого мира Синонимы: реализация, вектор, точка, entity, … Свойство – характеристика объекта Синонимы: признак, атрибут, параметр, feature, … ……. |