СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ВЕКТОРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ БОЛЬШОЙ РАЗМЕРНОСТИ
Ключевые слова:
Большие данные, кластеризация, кластерный анализ, интеллектуальный анализ данных, векторизация, кластеризация текстовых данных, k-means, Word2Vec, TF-IDF, Bag-of-WordsАннотация
Представленная публикация посвящена обзору проблемы представления текстовой
информации для последующего осуществления кластерного анализа в рамках обработки и
управления информации большой размерности. Современные требования предъявляемые к
аналитическим, поисковым и рекомендательным информационным системам демонстри-
руют слабую сформированность целостного решения, способного обеспечить достаточ-
ный уровень быстродействия и качества получаемых результатов в рамках функциониро-
вания текущего рынка информационных технологий. Поиск решения представленной про-
блемы влечет за собой необходимость в проведении объективного анализа существующих
решений представления текстовой информации в векторном пространстве, с целью фор-
мирования целостного представления о достоинствах и недостатках анализируемых под-
ходов, а также формированием критериев, позволяющих реализовать собственный под-
ход, лишенный выявленных слабостей. Представленная работа является аналитической, и
позволяет получить представление о современном состоянии и проработанности выявлен-
ной проблемы в рамках ограниченной предметной области. Кластеризация текстовых
данных – автоматическое формирование подмножеств, элементами которых выступают
экземпляры документов некоторой исследуемой, неструктурированной выборки фиксиро-
ванной размерности. Данный процесс можно классифицировать как обучения без учителя,
предполагающее, отсутствие эксперта, собственноручно присваивающего исходной вы-
борке документов индексы классов. Однако, осуществление кластерного анализа тексто-
вых данных без какой-либо предварительной обработки – невозможно. Для этого необхо-
димо обеспечить стандартизацию и приведение входных данных к единому формату и
виду. В рамках данного этапа осуществления кластерного анализа, в представленной пуб-
ликации рассматриваются методы предварительной обработки текстовых данных. Но-
визна представленной публикации заключается в формировании теоретического базиса
основных методов векторизации текстовых данных, путем систематизации и объективизации выдвинутых предположений, путем проведения серии экспериментальных исследо-
ваний. Основным отличием данной работы от уже опубликованных научных трудов явля-
ется систематизации и анализ современных решений, а также выдвижение гипотезы об
актуальности и эффективности собственного гибридизированного подхода предназначен-
ного для векторизации текстовых данных








