Найти

Поиск статей

Расширенные фильтры

Опубликовано послеГодМесяцДень

Опубликовано доГодМесяцДень

По автору

Заголовок

Аннотация

Ключевые слова

Результаты поиска

Найдено результатов: 4.

МОДИФИЦИРОВАННЫЙ МЕТОД УСТРАНЕНИЯ НЕОДНОЗНАЧНОСТИ СМЫСЛА СЛОВ, ОСНОВАННЫЙ НА МЕТОДАХ РАСПРЕДЕЛЕННОГО ПРЕДСТАВЛЕНИЯ

Ю.А. Кравченко , Мансур Али Махмуд, Мохаммад Жуман Хуссайн

2021-08-11

Аннотация ▼

В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. В
этой статье предлагается модифицированный метод устранения неоднозначности слов
(WSD), который, по сути, имитирует хорошо известный вариант подхода Леска WSD. Для
выбранного слова и его контекста алгоритм Леска проводит свои вычисления на основе
проверки совпадений контекста слова и каждого определения его смыслов (глосс), для того
чтобы выбрать правильное значение. Основным преимуществом данного метода является
применение концепции сходства между определением и контекстом вместо «перекры-
тия», для каждого смысла целевого слова в дополнение к расширению определения приме-
рами предоставленными WordNet. Предлагаемый метод также характеризуется исполь-
зованием функций измерения схожести текстов, определенных в распределенном семан-
тическом пространстве. Предлагаемый метод протестирован на пяти различных наборах
эталонных данных для задачи устранения неоднозначности смысла слов и сравнивался с
несколькими базовыми методами, включая Lesk, расширенный Lesk, WordNet 1st sense,
Babelfy и UKB. Результаты показывают, что предлагаемый метод превосходит большин-
ство известных аналогов, за исключением методов Babelfy и WN 1st sense.
ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Али Махмуд Мансур , Жуман Хуссайн Мохаммад , Ю. А. Кравченко

2021-07-18

Аннотация ▼

В задачах интеллектуального анализа текста текстовое представление должно
быть не только эффективным, но и интерпретируемым, поскольку это позволяет понять
операционную логику, лежащую в основе моделей интеллектуального анализа данных. Тра-
диционные методы векторизации текста, такие как TF-IDF и Bag-of-words, эффективны
и имеют интуитивно понятную интерпретируемость, но страдают от «проклятия раз-
мерности» и не могут понимать смысл слов. С другой стороны, современные распределен-
ные методы эффективно определяют скрытую семантику, но требуют больших вычисли-
тельных ресурсов и времени, а также им не хватает интерпретируемости. В этой ста-
тье предлагается новый метод векторизации текстов под названием Bag of weighted Concepts
BoWC, который представляет документ в соответствии с содержащейся в нем ин-
формацией о концептах. Предлагаемый метод создает концепты посредством кластери-
зации векторов слов (т.е. встраивания слов), и использует частоты этих кластеров концептов для представления векторов документов. Чтобы обогатить итоговое представле-
ние документа, предлагается модифицированная весовая функция для взвешивания кон-
цептов на основе статистики, извлеченной из информации вложений слов. Векторы, сге-
нерированные с помощью предложенного метода, характеризуются интерпретируемо-
стью, низкой размерностью, высокой точностью, а также низкими вычислительными
затратами при использовании в задачах классификации и кластеризации. Предлагаемый
метод протестирован на пяти различных наборах эталонных данных для кластеризации и
классификации текстовых документов и сравнивается с несколькими базовыми методами,
включая Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts и VLAC. Результаты пока-
зывают, что BoWC превосходит большинство базовых методов и дает в среднем на 7 %
лучшую точность.
ИДЕНТИФИКАЦИЯ КЛЮЧЕВЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ СБОРА И АНАЛИЗА ДАННЫХ ИЗ ОТКРЫТЫХ РУССКОЯЗЫЧНЫХ ИСТОЧНИКОВ

А.Г. Бондаренко , А.Г. Кравец

144-159

2025-07-24

Аннотация ▼

Данная статья посвящена разработке и апробации нового подхода к сбору, обработке и анализу открытых данных на русском языке для идентификации ключевых технологических направлений. Для решения задачи формирования и последующего анализа структурированных датасетов разработаны и программно реализованы методы веб-скрейпинга, обработки естественного языка и анализа временных рядов. Описанный в статье подход впервые применен для извлечения и структурирования информации из научных статей, новостных ресурсов и патентной документации на русском языке. В результате анализа полученного датасета научных публикаций выделены 30 наиболее часто упоминаемых биграмм и столько же триграмм технологических терминов.
На основе анализа частотности биграмм и триграмм выделены ключевые технологические термины, которые затем использованы для комплексной фильтрации по ключевым технологиям. Комплексная фильтрация позволила осуществить поиск русскоязычных патентов и их сбор для дальнейшего анализа. В результате предварительной обработки полученной патентной информации сформированы временные ряды патентной активности. Программная система идентификации ключевых технологий реализована на JavaScript и Python с использованием библиотек Selenium и BeautifulSoup для веб-скрейпинга, NLTK и Scikit-learn для обработки и анализа текстовых данных. Исследование динамики развития ключевых технологий во времени позволило выявить периоды интенсивной патентной деятельности и снижения интереса к той или иной технологии. Результаты, изложенные в статье, создают основу для дальнейшей разработки методов машинного обучения с целью прогнозирования технологического развития и выявления перспективных направлений прикладных исследований.
МЕТОДИКА ОПРЕДЕЛЕНИЯ И АНАЛИЗА ТЕХНИЧЕСКИХ ХАРАКТЕРИСТИК ТЕХНОЛОГИЧЕСКИХ ТРЕНДОВ

М.С. Анферова , А.М. Белевцев , В. В. Дворецкий

2025-01-30

Аннотация ▼

Стремительный рост научных знаний и постоянно растущий объем научных публикаций
создают серьезные проблемы для выявления новых тенденций и понимания меняющегося исследо-
вательского ландшафта. Формирование технологических трендов необходимо для разработки и
построения дорожных карт развития на национальном, отраслевом и корпоративном уровнях.
Задача определения технологических трендов является важной проблемой в области анализа дан-
ных и машинного обучения. Известные методы анализа, включающие кластеризацию по времен-
ному фактору, позволяют сформировать ключевые фразы, но задача формирования трендов, ис-
следования их характеристик и динамики их развития не имеют в настоящее время удовлетвори-
тельного решения. Решение этой задачи предполагает: – создание методики перехода от ключе-
вых фраз к непосредственно названию новых технологических трендов; – определение закономер-
ности, развития технологий в заданной предметной области; – определение направления разви-
тия будущих исследований. Решение этих задач позволит создать эффективный инструмент
поддержки принятия решений, уменьшить время выявления тренда, оценки динамики его разви-
тия и построения дорожных карт. В представленной работе предлагается новый подход к фор-
мированию технологических трендов. Метод основан на алгоритмах машинного обучения и мето-
дах обработки естественного языка и направлен на преодоление некоторых ограничений тради-
ционных методов. В частности, методика позволяет выявить сложные взаимосвязи между раз-
личными научными концепциями и обеспечивает более точный и всесторонний способ выявления
трендов. Проведен анализ методов и способов выявления трендов научно-технологического раз-
вития и их развития на основе ключевых слов, выявленных с помощью модели, использующей кла-
стеризацию по времени. Предложен алгоритм выявления трендов.

1 - 4 из 4 результатов

Найти

Результаты поиска

МОДИФИЦИРОВАННЫЙ МЕТОД УСТРАНЕНИЯ НЕОДНОЗНАЧНОСТИ СМЫСЛА СЛОВ, ОСНОВАННЫЙ НА МЕТОДАХ РАСПРЕДЕЛЕННОГО ПРЕДСТАВЛЕНИЯ

ВЕКТОРИЗАЦИЯ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

ИДЕНТИФИКАЦИЯ КЛЮЧЕВЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ СБОРА И АНАЛИЗА ДАННЫХ ИЗ ОТКРЫТЫХ РУССКОЯЗЫЧНЫХ ИСТОЧНИКОВ

МЕТОДИКА ОПРЕДЕЛЕНИЯ И АНАЛИЗА ТЕХНИЧЕСКИХ ХАРАКТЕРИСТИК ТЕХНОЛОГИЧЕСКИХ ТРЕНДОВ

links

journal

index