РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ  ДЛЯ НАБОРА ДАННЫХ «DUSHA»

П.Г. Букина; А.А. Меринов; С.С. Харченко; Е.Ю. Костюченко

Авторы

П.Г. Букина Томский государственный университет систем управления и радиоэлектроники
А.А. Меринов Томский государственный университет систем управления и радиоэлектроники
С.С. Харченко Томский государственный университет систем управления и радиоэлектроники
Е.Ю. Костюченко Томский государственный университет систем управления и радиоэлектроники

Ключевые слова:

Эмоции, набор данных, нейронная сеть, алгоритм, речевой сигнал, аудиозапись, классификация

Аннотация

Рассматривается задача автоматического распознавания эмоциональных состояний по речевому сигналу с использованием современных методов глубокого обучения. Актуальность исследования обусловлена растущей потребностью в интеллектуальных системах, способных оценивать эмоциональное состояние человека. Такие технологии могут найти широкое применение в медицине, психологии, информационных системах и управлении персоналом. Основной целью работы является разработка эффективной нейросетевой модели для распознавания эмоций в русскоязычной речи с точностью, превосходящей показатели современных архитектур. В качестве основы для экспериментов использован открытый русскоязычный набор данных «Dusha», содержащий 300000 аудиозаписей, из которых для обучения взято 183055 аудиозаписей подвыборки «Crowd», размеченной по четырём эмоциональным категориям: радость, грусть, злость и нейтральное состояние. Для подачи речевых сигналов в нейронную сеть были получены мел-частотные кепстральные коэффициенты (MFCC), которые демонстрируют высокую эффективность в задачах анализа и классификации речи, – 20 коэффициентов, извлеченные при использовании временного окна 20 мс и перекрытия 10 мс, с последующей нормализацией значений. Базовой архитектурой нейросетевой модели выступила двунаправленная рекуррентная сеть с долгой краткосрочной памятью (BLSTM), способная учитывать как прошлый, так и будущий контекст во временной последовательности. Для борьбы с переобучением и повышения обобщающей способности модель была модифицирована: в неё были добавлены свёрточные слои (CNN), слои MaxPooling для снижения размерности, а также механизмы Dropout и BatchNormalization. В результате предложенная гибридная CNN-BLSTM архитектура продемонстрировала точность 62,9% на тестовой выборке, что на 6,7% выше исходной модели (56,2%). Полученные результаты были сопоставлены с результатами современных архитектур, а именно MobileNetV2, HuBERT и WavLM. Анализ позволил обозначить перспективы дальнейшего повышения качества исследования за счет комплексной работы над структурой и параметрами используемой модели, а также балансировки классов и рассмотрения дополнительных акустических признаков.

Библиографические ссылки

1. Lian H., Lu C., Li S., Zhao Y. A Survey of deep learning-based multimodal emotion recognition: speech, text, and face, Entropy, 2023, No. 25 (10).

2. Bogdanova D.R., Akushev A.T. Raspoznavanie emotsiy po rechevomu signalu [Emotion recognition based on speech signal], E-Scio: elektron. nauchn. zhurn [E-Scio: electronic scientific journal], 2021, No. 6 (57).

3. Nazarova E.K. Vliyanie psikhiki na proizvoditel'nost' truda [Influence of the psyche on labor productivi-ty], Universum: psikhologiya i obrazovanie [Universum: Psychology and Education], 2024, No. 7, pp. 53-56.

4. Gorshkov Yu.G. Vizualizatsiya emotsional'noy napryazhennosti cheloveka po rechevomu signalu [Visu-alization of human emotional tension based on speech signal], Nauchnaya vizualizatsiya [Scientific Vis-ualization], 2023, No. 2, pp. 102-112.

5. Nikiforov A.A. Razrabotka modulya raspoznavaniya emotsiy razgovora koll-tsentra s ispol'zovaniem rekurrentnykh iskusstvennykh neyronnykh setey, dlya vyyavleniya nezhelatel'nogo kontenta [Develop-ment of a module for recognizing emotions in call center conversations using recurrent artificial neural networks to identify unwanted content], Vestnik nauki [Herald of Science], 2023, No. 7, pp. 226-231.

6. Malygina Yu.P. Neyronnye seti: osobennosti, tendentsii, perspektivy razvitiya [Neural networks: fea-tures, trends, prospects for development], Molodoy issledovatel' Dona: elektronnyy nauchnyy zhurnal [Young researcher of the Don: electronic scientific journal], 2018, No. 5 (14), pp. 79-82.

7. Ekman P., Oster H. Facial expressions of emotions, Annual Review of Psychology, 1979, No. 30,

pp. 527-554.

8. Cowen A.S., Keltner D. Self-report captures 27 distinct categories of emotion bridged by continuous gradients, Proceedings of the National Academy of Sciences, PNAS, 2017, No. 114 (38), pp. E7900-E7909.

9. Wagner J., Triantafyllopoulos A., Wierstorf H., Schmitt M., Burkhardt F., Eyben F., Schuller B.W. Dawn of the transformer era in speech emotion recognition: closing the valence gap, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.

10. Ayadi M., Kamel M., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases, Pattern Recognition, 2011, No. 44, pp. 572-587.

11. Dataset dlya raspoznavaniya emotsiy – Dusha [Dataset for emotion recognition – Dusha]. Available at: https://developers.sber.ru/portal/products/dusha?ysclid=m7hrx3w5t3967089717.

12. Makarova V., Petrushin V. Ruslana: a database of Russian emotional utterances, 7th International Con-ference on Spoken Language Processing, 2002, pp. 2041-2044.

13. Russian emotional speech dialogs (RESD). Available at: https://www.kaggle.com/datasets/ ar4ikov/resd-dataset.

14. Sahidullah M., Saha G. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recognition, Speech Communication, 2012, Vol. 54, Issue 4, pp. 543-565.

15. Jagtap S., Desai K., Patil J. A Survey on Speech Emotion Recognition Using MFCC and Different Classifier, 2022.

16. Badr Y., Mukherjee P., Thumati S. Speech Emotion Recognition using MFCC and Hybrif Neural Net-works, 13th International Conference on Neural Computation Theory and Applications, 2021.

17. Librosa – librosa 0.10.2 documentation. – Режим доступа: https://librosa.org/doc/latest/index.html.

18. Hochreiter S., Schmidhuber J. Long Short-Term Memory, Neural Computation, 1997, No. 9 (8),

pp. 1735-1780.

19. Kondratenko V., Sokolov A., Karpov N., Kutuzov O., Savushkin N., Minkin F. Large raw emotional da-taset with aggregation mechanism, ArXiv (Cornell University), 2022.

20. Lemaev V.I., Lukashevich N.V. Avtomaticheskaya klassifikatsiya emotsiy v rechi: metody i dannye [Au-tomatic classification of speech emotions: methods and data], Litera. Nota bene, 2024, No. 4, pp. 159-173.

РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ ДЛЯ НАБОРА ДАННЫХ «DUSHA»

Авторы

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Опубликован

Выпуск

Раздел

links

Язык

journal

index

Информация