Найти
Результаты поиска
-
РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ ДЛЯ НАБОРА ДАННЫХ «DUSHA»
П.Г. Букина , А.А. Меринов , С.С. Харченко , Е.Ю. Костюченко240-2482025-12-30Аннотация ▼Рассматривается задача автоматического распознавания эмоциональных состояний по речевому сигналу с использованием современных методов глубокого обучения. Актуальность исследования обусловлена растущей потребностью в интеллектуальных системах, способных оценивать эмоциональное состояние человека. Такие технологии могут найти широкое применение в медицине, психологии, информационных системах и управлении персоналом. Основной целью работы является разработка эффективной нейросетевой модели для распознавания эмоций в русскоязычной речи с точностью, превосходящей показатели современных архитектур. В качестве основы для экспериментов использован открытый русскоязычный набор данных «Dusha», содержащий 300000 аудиозаписей, из которых для обучения взято 183055 аудиозаписей подвыборки «Crowd», размеченной по четырём эмоциональным категориям: радость, грусть, злость и нейтральное состояние. Для подачи речевых сигналов в нейронную сеть были получены мел-частотные кепстральные коэффициенты (MFCC), которые демонстрируют высокую эффективность в задачах анализа и классификации речи, – 20 коэффициентов, извлеченные при использовании временного окна 20 мс и перекрытия 10 мс, с последующей нормализацией значений. Базовой архитектурой нейросетевой модели выступила двунаправленная рекуррентная сеть с долгой краткосрочной памятью (BLSTM), способная учитывать как прошлый, так и будущий контекст во временной последовательности. Для борьбы с переобучением и повышения обобщающей способности модель была модифицирована: в неё были добавлены свёрточные слои (CNN), слои MaxPooling для снижения размерности, а также механизмы Dropout и BatchNormalization. В результате предложенная гибридная CNN-BLSTM архитектура продемонстрировала точность 62,9% на тестовой выборке, что на 6,7% выше исходной модели (56,2%). Полученные результаты были сопоставлены с результатами современных архитектур, а именно MobileNetV2, HuBERT и WavLM. Анализ позволил обозначить перспективы дальнейшего повышения качества исследования за счет комплексной работы над структурой и параметрами используемой модели, а также балансировки классов и рассмотрения дополнительных акустических признаков.
-
ИММУНОЛОГИЧЕСКАЯ МОДЕЛЬ ТЕКСТОНЕЗАВИСИМОЙ ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ
Ю. А. Брюхомицкий6-132022-05-26Аннотация ▼Предлагается иммунологическая модель клональной селекции с положительным от-
бором, которая основана на принципах массово-параллельной обработки данных, наблю-
даемых в искусственной иммунной системе. Модель предназначена для текстонезависимой
идентификации личности по голосу. В отличие от известных парольных систем иденти-
фикации голоса, предлагаемая модель реализует децентрализованное распознавание голо-
совых данных путем их сопоставления с детекторами, моделирующими иммунокомпе-
тентные клетки иммунной системы. Исходные голосовые признаки формируются в линей-
ном предсказателе речи и представляются кепстральными коэффициентами. Последова-
тельность кепстральных коэффициентов расчленяется далее на равные временные участ-
ки – морфемы, представляющие собой абстрактные языковые единицы, объединяющие
фонемы. Морфемы несут индивидуальную окраску воспроизводимых голосом последова-
тельных временных участков речи, что позволяет продуктивно использовать их в качест-
ве идентификационных признаков голоса. Сопоставление голосовых морфем с детектора-
ми осуществляется по принципу позитивной селекции на основе меры близости Евклида.
Принятие моделью идентификационного решения «свой-чужой» реализуется на основе
статистического подхода по частоте срабатывания детекторов. Предлагаемая модель
реализует идентификацию личности говорящего в темпе поступления его голосовых дан-
ных. При этом идентификация личности инвариантна языку, объему и содержанию речи.
Преимущество модели – полная защищенность от атак воспроизведения. Эффективная
реализация модели, точность и скорость идентификации обусловлены возможностью
организации высокоскоростного анализа больших объемов голосовых данных, что в пер-
спективе согласуется с темпами разработки и применения вычислительных систем высо-
кой производительности.








