Найти
Результаты поиска
-
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ БОЛЬШОЙ РАЗМЕРНОСТИ
Ф.С. Булыга , В. М. Курейчик2023-06-07Аннотация ▼Представленная публикация посвящена обзору проблемы представления текстовой
информации для последующего осуществления кластерного анализа в рамках обработки и
управления информации большой размерности. Современные требования предъявляемые к
аналитическим, поисковым и рекомендательным информационным системам демонстри-
руют слабую сформированность целостного решения, способного обеспечить достаточ-
ный уровень быстродействия и качества получаемых результатов в рамках функциониро-
вания текущего рынка информационных технологий. Поиск решения представленной про-
блемы влечет за собой необходимость в проведении объективного анализа существующих
решений представления текстовой информации в векторном пространстве, с целью фор-
мирования целостного представления о достоинствах и недостатках анализируемых под-
ходов, а также формированием критериев, позволяющих реализовать собственный под-
ход, лишенный выявленных слабостей. Представленная работа является аналитической, и
позволяет получить представление о современном состоянии и проработанности выявлен-
ной проблемы в рамках ограниченной предметной области. Кластеризация текстовых
данных – автоматическое формирование подмножеств, элементами которых выступают
экземпляры документов некоторой исследуемой, неструктурированной выборки фиксиро-
ванной размерности. Данный процесс можно классифицировать как обучения без учителя,
предполагающее, отсутствие эксперта, собственноручно присваивающего исходной вы-
борке документов индексы классов. Однако, осуществление кластерного анализа тексто-
вых данных без какой-либо предварительной обработки – невозможно. Для этого необхо-
димо обеспечить стандартизацию и приведение входных данных к единому формату и
виду. В рамках данного этапа осуществления кластерного анализа, в представленной пуб-
ликации рассматриваются методы предварительной обработки текстовых данных. Но-
визна представленной публикации заключается в формировании теоретического базиса
основных методов векторизации текстовых данных, путем систематизации и объективизации выдвинутых предположений, путем проведения серии экспериментальных исследо-
ваний. Основным отличием данной работы от уже опубликованных научных трудов явля-
ется систематизации и анализ современных решений, а также выдвижение гипотезы об
актуальности и эффективности собственного гибридизированного подхода предназначен-
ного для векторизации текстовых данных -
АЛГОРИТМЫ АГЛОМЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ПРИМЕНИТЕЛЬНО К ЗАДАЧАМ АНАЛИЗА ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ
Ф. С. Булыга , В.М. Курейчик2022-01-31Аннотация ▼Рассмотрены и представлены основные проблемы и принципы функционирования
процесса кластеризации данных, в частности принципы и задачи кластеризации тексто-
вых массивов лингвистической экспертной информации. В ходе выполнения данной работы
были обозначены основные трудности возникающие при проектировании подобного рода
систем, например: необходимость предварительной обработки данных, сокращение раз-
мерности исходной выборки и т.п. Для эффективного выполнения представленных задач
реализованное решение должно обладать комплексным подходом учитывающим показате-
ли эффективности методов направленных на решение отдельных подзадач, а также спо-
собностью обеспечить высокие показатели эффективности реализации каждого этапа
процесса кластеризации. В представленной работе рассматриваются различные группы
алгоритмов иерархической кластеризации, в частности была рассмотрена подгруппа ал-
горитмов агломеративной кластеризации применительно к задачам кластеризации лин-
гвистической экспертной информации. В описываемой работе приведена формальная по-
становка задачи кластеризации текстов, а также определена основная группа реализо-
ванных решений основанных на принципах агломеративной кластеризации: ROCK, CURE,
CHAMELEON. Проведен детальный обзор каждого из представленных алгоритмов, а
также сформулированы основные достоинства и недостатки каждого из них. Преимуще-
ством данной работы можно считать совокупность представленных данных об алгорит-
мах, а также результаты сравнительного анализа, позволяющие в дальнейшем оценить
целесообразность и потенциальную вероятность применения указанных решения из пред-
ставленной группы алгоритмов агломеративной кластеризации. Новизна данной работы
заключается в формировании обзорного анализа существующих подходов в области иерар-
хической кластеризации для решения задач кластерного анализа лингвистической эксперт-
ной информации, а также формирование результатов проведенного сравнительного ана-
лиза рассмотренных алгоритмов








