Перейти к основному контенту Перейти к главному меню навигации Перейти к нижнему колонтитулу сайта
##common.pageHeaderLogo.altText##
Известия ЮФУ
Технические науки
  • Текущий выпуск
  • Предыдущие выпуски
    • Архив
    • Выпуски 1995 – 2019
  • Редакционный совет
  • О журнале
    • Официально
    • Основные задачи
    • Основные рубрики
    • Специальности ВАК РФ
    • Главный редактор
English
ISSN 1999-9429 print
ISSN 2311-3103 online
  • Вход
  1. Главная /
  2. Найти

Найти

Расширенные фильтры
Опубликовано после
Опубликовано до

Результаты поиска

Найдено результатов: 2.
  • РАСПОЗНАВАНИЕ ЭМОЦИОНАЛЬНЫХ СОСТОЯНИЙ В РУССКОЯЗЫЧНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ MFCC-ПРИЗНАКОВ И BLSTM-МОДЕЛИ ДЛЯ НАБОРА ДАННЫХ «DUSHA»

    П.Г. Букина , А.А. Меринов , С.С. Харченко , Е.Ю. Костюченко
    240-248
    2025-12-30
    Аннотация ▼

    Рассматривается задача автоматического распознавания эмоциональных состояний по речевому сигналу с использованием современных методов глубокого обучения. Актуальность исследования обусловлена растущей потребностью в интеллектуальных системах, способных оценивать эмоциональное состояние человека. Такие технологии могут найти широкое применение в медицине, психологии, информационных системах и управлении персоналом. Основной целью работы является разработка эффективной нейросетевой модели для распознавания эмоций в русскоязычной речи с точностью, превосходящей показатели современных архитектур. В качестве основы для экспериментов использован открытый русскоязычный набор данных «Dusha», содержащий 300000 аудиозаписей, из которых для обучения взято 183055 аудиозаписей подвыборки «Crowd», размеченной по четырём эмоциональным категориям: радость, грусть, злость и нейтральное состояние. Для подачи речевых сигналов в нейронную сеть были получены мел-частотные кепстральные коэффициенты (MFCC), которые демонстрируют высокую эффективность в задачах анализа и классификации речи, – 20 коэффициентов, извлеченные при использовании временного окна 20 мс и перекрытия 10 мс, с последующей нормализацией значений. Базовой архитектурой нейросетевой модели выступила двунаправленная рекуррентная сеть с долгой краткосрочной памятью (BLSTM), способная учитывать как прошлый, так и будущий контекст во временной последовательности. Для борьбы с переобучением и повышения обобщающей способности модель была модифицирована: в неё были добавлены свёрточные слои (CNN), слои MaxPooling для снижения размерности, а также механизмы Dropout и BatchNormalization. В результате предложенная гибридная CNN-BLSTM архитектура продемонстрировала точность 62,9% на тестовой выборке, что на 6,7% выше исходной модели (56,2%). Полученные результаты были сопоставлены с результатами современных архитектур, а именно MobileNetV2, HuBERT и WavLM. Анализ позволил обозначить перспективы дальнейшего повышения качества исследования за счет комплексной работы над структурой и параметрами используемой модели, а также балансировки классов и рассмотрения дополнительных акустических признаков.

  • ИММУНОЛОГИЧЕСКАЯ МОДЕЛЬ ТЕКСТОНЕЗАВИСИМОЙ ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ

    Ю. А. Брюхомицкий
    6-13
    2022-05-26
    Аннотация ▼

    Предлагается иммунологическая модель клональной селекции с положительным от-
    бором, которая основана на принципах массово-параллельной обработки данных, наблю-
    даемых в искусственной иммунной системе. Модель предназначена для текстонезависимой
    идентификации личности по голосу. В отличие от известных парольных систем иденти-
    фикации голоса, предлагаемая модель реализует децентрализованное распознавание голо-
    совых данных путем их сопоставления с детекторами, моделирующими иммунокомпе-
    тентные клетки иммунной системы. Исходные голосовые признаки формируются в линей-
    ном предсказателе речи и представляются кепстральными коэффициентами. Последова-
    тельность кепстральных коэффициентов расчленяется далее на равные временные участ-
    ки – морфемы, представляющие собой абстрактные языковые единицы, объединяющие
    фонемы. Морфемы несут индивидуальную окраску воспроизводимых голосом последова-
    тельных временных участков речи, что позволяет продуктивно использовать их в качест-
    ве идентификационных признаков голоса. Сопоставление голосовых морфем с детектора-
    ми осуществляется по принципу позитивной селекции на основе меры близости Евклида.
    Принятие моделью идентификационного решения «свой-чужой» реализуется на основе
    статистического подхода по частоте срабатывания детекторов. Предлагаемая модель
    реализует идентификацию личности говорящего в темпе поступления его голосовых дан-
    ных. При этом идентификация личности инвариантна языку, объему и содержанию речи.
    Преимущество модели – полная защищенность от атак воспроизведения. Эффективная
    реализация модели, точность и скорость идентификации обусловлены возможностью
    организации высокоскоростного анализа больших объемов голосовых данных, что в пер-
    спективе согласуется с темпами разработки и применения вычислительных систем высо-
    кой производительности.

1 - 2 из 2 результатов

links

Для авторов
  • Подать статью
  • Требования к рукописи
  • Редакционная политика
  • Рецензирование
  • Этика научных публикаций
  • Политика открытого доступа
  • Сопроводительные документы
Язык
  • English
  • Русский

journal

* не является рекламой

index

Индексация журнала
* не является рекламой
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Адрес редакции: 347900, г. Таганрог, ул. Чехова, д. 22, А-211 Телефон: +7 (8634) 37-19-80 Электронная почта: iborodyanskiy@sfedu.ru
Публикация в журнале бесплатна
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.
logo Сайт разработан командой ЦИИР