Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найден один результат.
  • МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)

    В.В. Бова , Ю.А. Кравченко , С.И. Родзин
    2022-11-01
    Аннотация ▼

    Рассматривается одна из важных задач искусственного интеллекта – машинная об-
    работка естественного языка. Решение данной задачи на основе кластерного анализа по-
    зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
    экспертной информации в условиях информационной неопределенности и слабой структу-
    рированности исходных текстовых ресурсов, полученных из различных предметных облас-
    тей. Кластерный анализ является мощным средством разведочного анализа текстовых
    данных, позволяющий провести объективную классификацию любых объектов, которые
    охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
    анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
    ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
    го преобразования, используемых на различных этапах кластеризации текстовых данных,
    эффективность которых проверяется экспериментальными исследованиями. В работе
    обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
    шения задачи повышения эффективности интеллектуальной обработки лингвистической
    экспертной информации. Также в работе рассмотрены способы визуализации результатов
    кластеризации для интерпретации кластерной структуры и зависимостей на множестве
    элементов текстовых данных и графические средства их представления в виде дендо-
    грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
    ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
    тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
    ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
    начального выбора числа кластеров и распределения их центров использовать иерархиче-
    ский подход, основанный на последовательном объединении и максимизации близости дан-
    ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
    личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
    чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
    сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
    ции. Результаты исследований показали, что для повышения вычислительной эффективно-
    сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
    ризации для оптимизации параметров модели обучения и поиска глобального оптимального
    решения необходимо использовать метаэвристические подходы.

1 - 1 из 1 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР