Найти
Результаты поиска
-
РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ ДЛЯ НАБОРА ДАННЫХ «DUSHA»
П.Г. Букина , А.А. Меринов , С.С. Харченко , Е.Ю. Костюченко240-2482025-12-30Аннотация ▼Рассматривается задача автоматического распознавания эмоциональных состояний по речевому сигналу с использованием современных методов глубокого обучения. Актуальность исследования обусловлена растущей потребностью в интеллектуальных системах, способных оценивать эмоциональное состояние человека. Такие технологии могут найти широкое применение в медицине, психологии, информационных системах и управлении персоналом. Основной целью работы является разработка эффективной нейросетевой модели для распознавания эмоций в русскоязычной речи с точностью, превосходящей показатели современных архитектур. В качестве основы для экспериментов использован открытый русскоязычный набор данных «Dusha», содержащий 300000 аудиозаписей, из которых для обучения взято 183055 аудиозаписей подвыборки «Crowd», размеченной по четырём эмоциональным категориям: радость, грусть, злость и нейтральное состояние. Для подачи речевых сигналов в нейронную сеть были получены мел-частотные кепстральные коэффициенты (MFCC), которые демонстрируют высокую эффективность в задачах анализа и классификации речи, – 20 коэффициентов, извлеченные при использовании временного окна 20 мс и перекрытия 10 мс, с последующей нормализацией значений. Базовой архитектурой нейросетевой модели выступила двунаправленная рекуррентная сеть с долгой краткосрочной памятью (BLSTM), способная учитывать как прошлый, так и будущий контекст во временной последовательности. Для борьбы с переобучением и повышения обобщающей способности модель была модифицирована: в неё были добавлены свёрточные слои (CNN), слои MaxPooling для снижения размерности, а также механизмы Dropout и BatchNormalization. В результате предложенная гибридная CNN-BLSTM архитектура продемонстрировала точность 62,9% на тестовой выборке, что на 6,7% выше исходной модели (56,2%). Полученные результаты были сопоставлены с результатами современных архитектур, а именно MobileNetV2, HuBERT и WavLM. Анализ позволил обозначить перспективы дальнейшего повышения качества исследования за счет комплексной работы над структурой и параметрами используемой модели, а также балансировки классов и рассмотрения дополнительных акустических признаков.
-
АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНТЕРФЕЙСА УПРАВЛЕНИЯ РОБОТ-ЧЕЛОВЕК ПРИ ВЫДЕЛЕНИИ ЗРИТЕЛЬНЫХ ВЫЗВАННЫХ ПОТЕНЦИАЛОВ НА ОСНОВЕ МНОГОМЕРНОГО ИНДЕКСА СИНХРОНИЗАЦИИ
Я. А. Туровский, С.С. Харченко, Р. В. Мещеряков, А.О. Исхакова, А.Ю. Исхаков2020-07-10Аннотация ▼Целью исследования является построения систем человеко-машинного управле-ния. Основные способы построения таких систем, способы выделения вызванных по-тенциалов в электроэнцефалограммах. В статье приведены исследования сигналов электроэнцефалограмм с устоявшимися зрительными вызванными потенциалами для разных частот фотостимуляции, на основе метода многомерного индекса синхрони-зации. Рассматривается влияние длины обрабатываемого окна на точность распозна-вания частоты исследуемого сигнала. Так же в ходе исследований авторы проверяют необходимость предобработки исходных сигналов посредством полосовой фильтрации сигнала. Кроме того, рассматривается возможность использования многомерного индекса синхронизации в многоканальном режиме. Результатом исследования авторов является рекомендации по используемым параметрам для выделения устоявшихся зри-тельных вызванных потенциалах в методе многомерного индекса синхронизации. Пока-зана возможность использования алгоритмов на основе многомерного индекса синхронизации в режиме реального времени. Полученные результаты имеют практическую значимость, так как могут применяться для построения нейрокомпьютерных интерфейсов на основе зрительных вызванных потенциалов и могут быть в дальнейшем использованы в формировании теории управления робототехнических систем различного назначения и в реализации решений по организации взаимодействия человека и машины в узких практических задачах.








