Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найден один результат.
  • РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ ДЛЯ НАБОРА ДАННЫХ «DUSHA»

    П.Г. Букина , А.А. Меринов , С.С. Харченко , Е.Ю. Костюченко
    240-248
    2025-12-30
    Аннотация ▼

    Рассматривается задача автоматического распознавания эмоциональных состояний по речевому сигналу с использованием современных методов глубокого обучения. Актуальность исследования обусловлена растущей потребностью в интеллектуальных системах, способных оценивать эмоциональное состояние человека. Такие технологии могут найти широкое применение в медицине, психологии, информационных системах и управлении персоналом. Основной целью работы является разработка эффективной нейросетевой модели для распознавания эмоций в русскоязычной речи с точностью, превосходящей показатели современных архитектур. В качестве основы для экспериментов использован открытый русскоязычный набор данных «Dusha», содержащий 300000 аудиозаписей, из которых для обучения взято 183055 аудиозаписей подвыборки «Crowd», размеченной по четырём эмоциональным категориям: радость, грусть, злость и нейтральное состояние. Для подачи речевых сигналов в нейронную сеть были получены мел-частотные кепстральные коэффициенты (MFCC), которые демонстрируют высокую эффективность в задачах анализа и классификации речи, – 20 коэффициентов, извлеченные при использовании временного окна 20 мс и перекрытия 10 мс, с последующей нормализацией значений. Базовой архитектурой нейросетевой модели выступила двунаправленная рекуррентная сеть с долгой краткосрочной памятью (BLSTM), способная учитывать как прошлый, так и будущий контекст во временной последовательности. Для борьбы с переобучением и повышения обобщающей способности модель была модифицирована: в неё были добавлены свёрточные слои (CNN), слои MaxPooling для снижения размерности, а также механизмы Dropout и BatchNormalization. В результате предложенная гибридная CNN-BLSTM архитектура продемонстрировала точность 62,9% на тестовой выборке, что на 6,7% выше исходной модели (56,2%). Полученные результаты были сопоставлены с результатами современных архитектур, а именно MobileNetV2, HuBERT и WavLM. Анализ позволил обозначить перспективы дальнейшего повышения качества исследования за счет комплексной работы над структурой и параметрами используемой модели, а также балансировки классов и рассмотрения дополнительных акустических признаков.

1 - 1 из 1 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР