Найти
Результаты поиска
-
ИДЕНТИФИКАЦИЯ КЛЮЧЕВЫХ ТЕХНОЛОГИЙ НА ОСНОВЕ СБОРА И АНАЛИЗА ДАННЫХ ИЗ ОТКРЫТЫХ РУССКОЯЗЫЧНЫХ ИСТОЧНИКОВ
А.Г. Бондаренко , А.Г. Кравец144-1592025-07-24Аннотация ▼Данная статья посвящена разработке и апробации нового подхода к сбору, обработке и анализу открытых данных на русском языке для идентификации ключевых технологических направлений. Для решения задачи формирования и последующего анализа структурированных датасетов разработаны и программно реализованы методы веб-скрейпинга, обработки естественного языка и анализа временных рядов. Описанный в статье подход впервые применен для извлечения и структурирования информации из научных статей, новостных ресурсов и патентной документации на русском языке. В результате анализа полученного датасета научных публикаций выделены 30 наиболее часто упоминаемых биграмм и столько же триграмм технологических терминов.
На основе анализа частотности биграмм и триграмм выделены ключевые технологические термины, которые затем использованы для комплексной фильтрации по ключевым технологиям. Комплексная фильтрация позволила осуществить поиск русскоязычных патентов и их сбор для дальнейшего анализа. В результате предварительной обработки полученной патентной информации сформированы временные ряды патентной активности. Программная система идентификации ключевых технологий реализована на JavaScript и Python с использованием библиотек Selenium и BeautifulSoup для веб-скрейпинга, NLTK и Scikit-learn для обработки и анализа текстовых данных. Исследование динамики развития ключевых технологий во времени позволило выявить периоды интенсивной патентной деятельности и снижения интереса к той или иной технологии. Результаты, изложенные в статье, создают основу для дальнейшей разработки методов машинного обучения с целью прогнозирования технологического развития и выявления перспективных направлений прикладных исследований. -
МЕТОДЫ И АЛГОРИТМЫ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДАННЫХ (ОБЗОР)
В.В. Бова , Ю.А. Кравченко , С.И. Родзин2022-11-01Аннотация ▼Рассматривается одна из важных задач искусственного интеллекта – машинная об-
работка естественного языка. Решение данной задачи на основе кластерного анализа по-
зволяет выявлять, формализовывать и интегрировать большие объемы лингвистической
экспертной информации в условиях информационной неопределенности и слабой структу-
рированности исходных текстовых ресурсов, полученных из различных предметных облас-
тей. Кластерный анализ является мощным средством разведочного анализа текстовых
данных, позволяющий провести объективную классификацию любых объектов, которые
охарактеризованы рядом признаков и имеют скрытые закономерности. Проведен обзор и
анализ современных модифицированных алгоритмов агломеративной кластеризации CURE,
ROCK, CHAMELEON, неиерархической кластеризации PAM, CLARA и алгоритма аффинно-
го преобразования, используемых на различных этапах кластеризации текстовых данных,
эффективность которых проверяется экспериментальными исследованиями. В работе
обоснованы требования к выбору наиболее эффективного метода кластеризации для ре-
шения задачи повышения эффективности интеллектуальной обработки лингвистической
экспертной информации. Также в работе рассмотрены способы визуализации результатов
кластеризации для интерпретации кластерной структуры и зависимостей на множестве
элементов текстовых данных и графические средства их представления в виде дендо-
грамм, диаграмм рассеивания, диаграмм сходства VOS и карт интенсивности. Для сравне-
ния качества работы алгоритмов использовались внутренние и внешние метрики эффек-
тивности: «V-мера», «Adjusted Rand index», «Силуэт». На основании проведенных экспери-
ментов выявлено, что необходимо использовать гибридный подход, в котором для перво-
начального выбора числа кластеров и распределения их центров использовать иерархиче-
ский подход, основанный на последовательном объединении и максимизации близости дан-
ных ограниченной выборки, когда нет возможности выдвинуть гипотезу о начальном ко-
личестве кластеров. Далее подключать алгоритмы итерационной кластеризации, обеспе-
чивающие высокую устойчивость по отношению к шумовым признакам и наличию выбро-
сов. За счет гибридизации повышается эффективность работы алгоритмов кластериза-
ции. Результаты исследований показали, что для повышения вычислительной эффективно-
сти и преодоления чувствительности при инициализации параметров алгоритмов класте-
ризации для оптимизации параметров модели обучения и поиска глобального оптимального
решения необходимо использовать метаэвристические подходы. -
ИММУНОЛОГИЧЕСКАЯ МОДЕЛЬ ТЕКСТОНЕЗАВИСИМОЙ ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ
Ю. А. Брюхомицкий6-132022-05-26Аннотация ▼Предлагается иммунологическая модель клональной селекции с положительным от-
бором, которая основана на принципах массово-параллельной обработки данных, наблю-
даемых в искусственной иммунной системе. Модель предназначена для текстонезависимой
идентификации личности по голосу. В отличие от известных парольных систем иденти-
фикации голоса, предлагаемая модель реализует децентрализованное распознавание голо-
совых данных путем их сопоставления с детекторами, моделирующими иммунокомпе-
тентные клетки иммунной системы. Исходные голосовые признаки формируются в линей-
ном предсказателе речи и представляются кепстральными коэффициентами. Последова-
тельность кепстральных коэффициентов расчленяется далее на равные временные участ-
ки – морфемы, представляющие собой абстрактные языковые единицы, объединяющие
фонемы. Морфемы несут индивидуальную окраску воспроизводимых голосом последова-
тельных временных участков речи, что позволяет продуктивно использовать их в качест-
ве идентификационных признаков голоса. Сопоставление голосовых морфем с детектора-
ми осуществляется по принципу позитивной селекции на основе меры близости Евклида.
Принятие моделью идентификационного решения «свой-чужой» реализуется на основе
статистического подхода по частоте срабатывания детекторов. Предлагаемая модель
реализует идентификацию личности говорящего в темпе поступления его голосовых дан-
ных. При этом идентификация личности инвариантна языку, объему и содержанию речи.
Преимущество модели – полная защищенность от атак воспроизведения. Эффективная
реализация модели, точность и скорость идентификации обусловлены возможностью
организации высокоскоростного анализа больших объемов голосовых данных, что в пер-
спективе согласуется с темпами разработки и применения вычислительных систем высо-
кой производительности. -
СЕМАНТИКО-СТАТИСТИЧЕСКИЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ КАТЕГОРИЙ АСПЕКТОВ В ЗАДАЧАХ СЕНТИМЕНТ-АНАЛИЗА
А.О. Корней, Е.Н. Крючкова2021-02-13Аннотация ▼В современном мире одним из ключевых каналов коммуникации является Интернет.
Через электронные площадки осуществляется торговля, продвижение услуг. Социальные
сети и мессенджеры становятся важнейшим каналом общения и мощным инструментом
воздействия на общественное мнение. Весомую долю во всем публикуемом контенте зани-
мают тексты, написанные на естественном языке. Поэтому проблемы обработки и по-
нимания естественных языков (ЕЯ) на сегодняшний день являются одними из ключевых.
Под влиянием коммерческих интересов активно развивается область автоматического
анализа тональности на основе аспектов. Данная задача существенно зависит от кон-
кретных предметных областей, и поэтому вопрос быстрой и эффективной адаптации
существующих моделей к новым доменам стоит весьма остро. В работе предлагается
гибридный метод аспектно-ориентированного анализа тональности текстов, основанный
на данных, извлеченных как из общеупотребительных словарей, так и из домен-
ориентированных текстов. Предложен метод построения конденсированного семантиче-
ского графа на основе неструктурированных домен-зависимых текстов. Введены числен-
ные метрики, позволяющие оценивать значимость отдельных терминов в пределе всего
домена. Предложен алгоритм категоризации текстов, основанный на выделении семанти-
ческих кластеров в пределах конденсированного домен-специфического графа. Предложен
метод оценки тональности домен-ориентированных текстов, основанный на статисти-
ческих данных, включая совместное использования тонального словаря и сконденсирован-
ного домен-специализированного графа. Приведены результаты экспериментов, позволяю-
щие оценить качество работы алгоритмов.








