ТЕХНОЛОГИЯ ПОВЫШЕНИЯ РОБАСТНОСТИ АКУСТИЧЕСКОЙ МОДЕЛИ В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ

  • Я. С. Пикалёв Государственное учреждение «Институт проблем искусственного интеллекта»
  • Т. В. Ермоленко Донецкий национальный университет
Ключевые слова: Автоматическое распознавание речи, скрытые Марковские модели, модели гауссовых смесей, дискриминативное обучение, информативные акустические признаки, глубокие нейронные сети

Аннотация

Предлагается технология повышения робастности акустической модели в задаче распознавания речи с применением глубокого машинного обучения. Данная технология ос-нована на использовании информативных акустических признаков, извлечённых из иерархи-ческих нейросетевых моделей, а также на гибридных акустических моделях, обученных на основе машинного глубокого обучения с применением дискриминативного подхода. Условия, в которых проходит эксплуатация систем автоматического распознавания речи, практи-чески никогда не совпадают с условиями, в которых проходило обучение акустических мо-делей. Следствием этого является то, что построенные модели не являются оптималь-ными для данных условий. На речевой сигнал влияние оказывают следующие факторы: ад-дитивный шум; голосовой тракт и манера произнесения диктора; реверберация; ампли-тудно-частотная характеристика микрофона и канала передачи; преобразование сигнала фильтром Найквиста и шум квантования. Предложенная технология направлена на повы-шение устойчивости модели к вышеуказанным факторам. Одним из способов повышения робастности модели является извлечение информативных акустических признаков из фо-нограммы, полученных с применением нейронных сетей. В качестве акустических призна-ков используются мел-кепстральные коэффициенты, их первые и вторые производные, а также коэффициенты перцептивного линейного предсказания. Предлагается схема извле-чения информативных признаков, состоящая из трёх связанных блоков нейронных сетей с узким горлом (с контекстами в 2, 5 и 10 кадров), а также из блока ResBlock, основанного на архитектуре ResNet-50. Дополнительная трансформация при помощи ResBlock позволяет опре-делять шаблоны, оказывающие большое влияние на модель, т. е. являющиеся ключевыми при-знаками. Представленная нейросетевая архитектура для классификации фонем состоит из слоёв нейронной сети с временными задержками, двухнаправленной нейросети с долгой крат-ковременной памятью, использующей механизм внимания. Входными признаками для данной нейронной сети являются преобразованные при помощи линейного дискриминативного анализа фильтры банков и признаки, извлечённые из нейросети. Особенность данного подхода состоит в том, что высокая точность модели (обеспечение хорошей разделимости классов) достигает-ся, в отличии от end-to-end систем, без использования объёмного обучающего набора аудиодан-ных. Помимо этого данная модель инвариантна к изменениям входных признаков. Была прове-дена серия численных экспериментов для задачи распознавания русской речи, используя речевые корпусы VoxForge и SpokenCorpora. Результаты экспериментов демонстрируют высокую точ-ность распознавания русской речи.

Литература

1. Amodei D., Ananthanarayanan S., Anubhai R. Deep speech 2: End-to-end speech recognition in english and mandarin, International conference on machine learning, 2016, pp. 173-182. 2. Markovnikov N.M., Kipyatkova I.S. Issledovanie metodov postroeniya modeley koderdekoder dlya raspoznavaniya russkoy rechi [Research of methods for constructing coderdecoder mod-els for Russian speech recognition], Informatsionno-upravlyayushchie sistemy [Information and control systems], 2019, No. 4, pp. 45-53. 3. Tampel' I.B., Karpov A.A. Avtomaticheskoe raspoznavanie rechi: ucheb. posobie [Automatic speech recognition: tutorial]. Saint Petersburg: Universitet ITMO, 2016.
4. Yu D., Seltzer M., Li J. et al. Feature Learning in Deep Neural Networks – studies on Speech Recognition Tasks, Proc. ICLR-2013. Available at: https://arxiv.org/abs/1301.3605 (accessed 15 January 2020).
5. Hermansky H., Ellis D.P.W., Sharma S. Tandem connectionist feature extraction for conven-tional HMM systems, 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). IEEE, 2000, Vol. 3, pp. 1635-1638.
6. Grézl F. et al. Probabilistic and bottle-neck features for LVCSR of meetings, 2007 IEEE In-ternational Conference on Acoustics, Speech and Signal Processing-ICASSP'07. IEEE, 2007, Vol. 4, pp. 757-760.
7. Sainath T., Kingsbury B., Ramabhadran B. Auto-encoder bottleneck features using deep belief networks, 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2012, pp. 4153-4156.
8. Gehring J. et al. Extracting deep bottleneck features using stacked auto-encoders, 2013 IEEE inter-national conference on acoustics, speech and signal processing. IEEE, 2013, pp. 3377-3381.
9. Saon G. et al. Speaker adaptation of neural network acoustic models using i-vectors, 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013, pp. 55-59.
10. Zhang Y., Chuangsuwanich E., Glass J. Extracting deep neural network bottleneck features using low-rank matrix factorization, 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2014, pp. 185-189.
11. Povey D. et al. Subspace Gaussian mixture models for speech recognition, 2010 IEEE Interna-tional Conference on Acoustics, Speech and Signal Processing. IEEE, 2010, pp. 4330-4333. 12. Medennikov I.P. Dvukhetapnyy algoritm initsializatsii obucheniya akusticheskikh modeley na osnove glubokikh neyronnykh setey [Two-stage algorithm for initialization of acoustic model training based on deep neural networks], Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki [Scientific and technical Bulletin of information technologies, mechanics and optics], 2016, Vol. 16, No. 2, pp. 379-381. 13. Xue J., Li J., Gong Y. Restructuring of deep neural network acoustic models with singular value decomposition, Interspeech, 2013, pp. 2365-2369.
14. He K. et al. Deep residual learning for image recognition, Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778.
15. Xu K. et al. Show, attend and tell: Neural image caption generation with visual attention, In-ternational conference on machine learning, 2015, pp. 2048-2057.
16. Sawai H. TDNN-LR continuous speech recognition system using adaptive incremental TDNN training, ICASSP 91: 1991 International Conference on Acoustics, Speech, and Signal Pro-cessing. IEEE, 1991, pp. 53-56.
17. Kipyatkova I., Karpov A. DNN-based acoustic modeling for Russian speech recognition using Kaldi, International Conference on Speech and Computer. Springer, Cham, 2016, pp. 246-253.
18. Graves A., Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures, Neural networks, 2005, Vol. 18, No. 5-6, pp. 602-610.
19. Shmyrev N.V. Svobodnye rechevye bazy dannykh voxforge.org [Free speech databases voxforge.org], Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoy Mezhdunarodnoy konferentsii «Dialog» (Bekasovo, 4–8 iyunya 2008 g.) [Com-puter linguistics and intelligent technologies: based on the materials of the annual international conference "Dialogue" (Bekasovo, June 4-8, 2008)], Issue 7 (14). Moscow: RGGU, 2008, pp. 585-517.
20. Fedorova O.V. Rasskazy o snovideniyakh: Korpusnoe issledovanie ustnogo russkogo diskursa [Stories about dreams: a Corpus study of oral Russian discourse], ed. by Kibrika A.A. i Podlesskoy V.I. Moscow: Yazyki slavyanskikh kul'tur, 2009, 736 p. Russkiy yazyk v nauchnom osveshchenii [Russian language in scientific coverage], 2010, No. 2, pp. 305-312.
Опубликован
2020-05-02
Выпуск
Раздел
РАЗДЕЛ I. МОДЕЛИ, МЕТОДЫ И ТЕХНОЛОГИИ ИНТЕЛЛЕКТУАЛЬНОГО УПРАВЛЕНИЯ