Найти
Результаты поиска
-
АЛГОРИТМЫ АГЛОМЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ АНАЛИЗА ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ
Ф. С. Булыга , В.М. Курейчик2022-01-31Аннотация ▼Рассмотрены и представлены основные проблемы и принципы функционирования
процесса кластеризации данных, в частности принципы и задачи кластеризации тексто-
вых массивов лингвистической экспертной информации. В ходе выполнения данной работы
были обозначены основные трудности возникающие при проектировании подобного рода
систем, например: необходимость предварительной обработки данных, сокращение раз-
мерности исходной выборки и т.п. Для эффективного выполнения представленных задач
реализованное решение должно обладать комплексным подходом учитывающим показате-
ли эффективности методов направленных на решение отдельных подзадач, а также спо-
собностью обеспечить высокие показатели эффективности реализации каждого этапа
процесса кластеризации. В представленной работе рассматриваются различные группы
алгоритмов иерархической кластеризации, в частности была рассмотрена подгруппа ал-
горитмов агломеративной кластеризации применительно к задачам кластеризации лин-
гвистической экспертной информации. В описываемой работе приведена формальная по-
становка задачи кластеризации текстов, а также определена основная группа реализо-
ванных решений основанных на принципах агломеративной кластеризации: ROCK, CURE,
CHAMELEON. Проведен детальный обзор каждого из представленных алгоритмов, а
также сформулированы основные достоинства и недостатки каждого из них. Преимуще-
ством данной работы можно считать совокупность представленных данных об алгорит-
мах, а также результаты сравнительного анализа, позволяющие в дальнейшем оценить
целесообразность и потенциальную вероятность применения указанных решения из пред-
ставленной группы алгоритмов агломеративной кластеризации. Новизна данной работы
заключается в формировании обзорного анализа существующих подходов в области иерар-
хической кластеризации для решения задач кластерного анализа лингвистической эксперт-
ной информации, а также формирование результатов проведенного сравнительного ана-
лиза рассмотренных алгоритмов -
МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)
В.В. Бова , Ю.А. Кравченко , С.И. Родзин2022-11-01Аннотация ▼Рассматривается одна из важных задач искусственного интеллекта – машинная об-
работка естественного языка. Решение данной задачи на основе кластерного анализа по-
зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
экспертной информации в условиях информационной неопределенности и слабой структу-
рированности исходных текстовых ресурсов, полученных из различных предметных облас-
тей. Кластерный анализ является мощным средством разведочного анализа текстовых
данных, позволяющий провести объективную классификацию любых объектов, которые
охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
го преобразования, используемых на различных этапах кластеризации текстовых данных,
эффективность которых проверяется экспериментальными исследованиями. В работе
обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
шения задачи повышения эффективности интеллектуальной обработки лингвистической
экспертной информации. Также в работе рассмотрены способы визуализации результатов
кластеризации для интерпретации кластерной структуры и зависимостей на множестве
элементов текстовых данных и графические средства их представления в виде дендо-
грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
начального выбора числа кластеров и распределения их центров использовать иерархиче-
ский подход, основанный на последовательном объединении и максимизации близости дан-
ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
ции. Результаты исследований показали, что для повышения вычислительной эффективно-
сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
ризации для оптимизации параметров модели обучения и поиска глобального оптимального
решения необходимо использовать метаэвристические подходы. -
МЕТОДИКА ПОСТРОЕНИЯ И ОЦЕНКИ ОНТОЛОГИЧЕСКОГО ПРОФИЛЯ ДЛЯ СИСТЕМ ПЕРСОНАЛИЗАЦИИ КОНТЕНТА
Ж.Х. Мохаммад248-2622025-12-30Аннотация ▼Данная статья посвящена разработке и апробации методики построения онтологического профиля, предназначенного для использования в системах персонализации контента. В работе детально описана модульная архитектура веб-системы персонализации, иллюстрирующая методы и алгоритмы обработки и анализа текста на каждом этапе, а также представлен пошаговый алгоритм создания онтологии. Методика включает первичную обработку данных: извлечение ключевых слов и словосочетаний, их иерархическую кластеризацию для выявления семантической структуры предметной области. Далее следует этап определения пороговых значений для отсева малозначимых связей, извлечения и формализации взаимосвязей между концептами с использованием методов обработки естественного языка, таких, как разрешение лексической неоднозначности и извлечение связей на основе семантического сходства. Для реализации этого процесса был разработан интегрированный конвейер (pipeline), объединяющий усовершенствованные алгоритмы, предложенные автором в предыдущих исследованиях, а именно: алгоритм извлечения ключевых фраз из отдельного текста на основе семантического сходства и модифицированный алгоритм разрешения лексической многозначности слов. В рамках данного конвейера также были оптимально интегрированы все необходимые инструменты обработки естественного языка, обеспечивающие эффективную работу указанных методов в процессе автоматического построения онтологии из текста. Особое внимание в исследовании уделяется комплексной оценке полученной онтологии с использованием специализированного набора критериев, позволяющих объективно оценить качество, полноту и непротиворечивость построенного профиля. Важной частью работы является проведение вычислительного эксперимента, который наглядно демонстрирует влияние каждого из этапов обработки данных на итоговое качество и эффективность онтологии. Показано, что предложенная методика позволяет построить практичную, масштабируемую и релевантную онтологию, готовую к промышленному внедрению и интеграции в системы персонализации для повышения их точности и адаптивности.








