Найти
Результаты поиска
-
ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ
Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко2021-07-18Аннотация ▼В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
BoWC, который представляет документ в соответствии с содержащейся в нем ин-
формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
ние документа, предлагается модифицированная весовая функция для взвешивания кон-
цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
нерированные с помощью предложенного метода, характеризуются интерпретируемо-
стью, низкой размерностью, высокой точностью, а также низкими вычислительными
затратами при использовании в задачах классификации и кластеризации. Предлагаемый
метод протестирован на пяти различных наборах эталонных данных для кластеризации и
классификации текстовых документов и сравнивается с несколькими базовыми методами,
включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
лучшую точность. -
ПРИМЕНЕНИЕ ДИСТРИБУТИВНОЙ СЕМАНТИКИ ПРИ ВЫДЕЛЕНИИ ЗНАЧИМЫХ СОЧЕТАНИЙ ЗАГОЛОВКОВ НЕСКОЛЬКИХ КОЛЛЕКЦИЙ ТЕКСТОВ ПРИ ФОРМАЛИЗАЦИИ ЛИНГВИСТИЧЕСКОЙ ЭКСПЕРТНОЙ ИНФОРМАЦИИ
В.И. Данильченко , В. М. Курейчик2022-08-09Аннотация ▼Рассматриваются методы формирования специальных моделей представления раз-
личных наборов знаний в различных информационных системах. Работа посвящена приме-
нению дистрибутивной семантики при выделении значимых сочетаний в одной предмет-
ной области (ПрО) в рамках формализации лингвистической экспертной информации
(ЛЭИ). В работе применяется подход к формализации ЛЭИ на основе набора аналитиче-
ских методов, где в качестве моделей используется линейная алгебра. Такой подход даетархитектур ЛЭИ или дендрограмм при выделении значимых сочетаний заголовков несколь-
ких коллекций текстов. Научная новизна заключается в предложенном аналитическом
подходе с применением дистрибутивной семантики при выделении значимых сочетаний
заголовков нескольких коллекций текстов, который позволяет проводить анализ и обра-
ботку лингвистической экспертной информации. Отличительной характеристикой пред-
ложенного подхода является возможность формализовать ПрО «Методы глобальной оп-
тимизации» на основе синтеза различных уже существующих иерархий рассматриваемой
ПрО. В работе преследуется задача создать условия для формализации ЛЭИ путем приме-
нения дистрибутивной семантики при выделении значимых сочетаний заголовков несколь-
ких коллекций. Практическая ценность работы заключается в разработке нового подхода
в формализации ЛЭИ с учетом дистрибутивной семантики при выделении значимых соче-
таний заголовков нескольких коллекций текстов. Так же в работе построена онтология в
owl формате «Методы глобальной оптимизации» в программе «Protege». Онтология по-
строена на основе связанных данных ПрО. Построенная в данной работе онтология, до-
полняет структуру поиска в рамках рассматриваемой ПрО и может быть дополнена и
развита в дальнейшем.








