Применение частотного маскирования при MFCC-параметризации речи на фоне шумов


https://doi.org/10.15217/issn1684-8853.2016.3.8

Полный текст:


Аннотация

Цель: при параметризации речевых сигналов широко применяются мел-частотные кепстральные коэффициенты (MFCC), однако эффективность их использования резко падает при появлении в сигнале шумовой составляющей. Ставится задача модификации традиционного алгоритма вычисления MFCC-коэффициентов, осуществляемой путем введения дополнительных преобразований сигнала, учитывающих механизмы речеобразования и речевосприятия. Результаты: предложено использовать психоакустическую модель, позволяющую учитывать в расчете MFCC-коэффициентов эффект частотного маскирования при восприятии звуков человеком. Дополнительно, учитывая механизм образования в спектре речевого сигнала формантных областей, предложено воздействовать на спектральные отсчеты, соответствующие кратным гармоникам основного тона. Модифицированный алгоритм исследован на базе системы распознавания одиночных слов, адаптированной под параметризацию речевого сигнала только MFCC-коэффициентами. Показан положительный эффект от использования в алгоритме параметризации предложенных дополнительных преобразований речевого сигнала. Практическая значимость: представленный в работе подход к вычислению MFCC-коэффициентов сегмента речевого сигнала позволяет повысить эффективность их применения при наличии фоновых шумов в широком круге речевых приложений.

Об авторе

К. К. Томчук
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Россия


Список литературы

1. Majeed S. A., Husain H., Samad S. A., Idbeaa T. F. Mel Frequency Cepstral Coefficients (MFCC) Feature Extraction Enhancement in the Application of Speech Recognition: a Comparison Study // Journal of Theoretical and Applied Information Technology. 2015. Vol. 79. N 1. P. 38-56.

2. Tan L. N., Alwan A. Feature Enhancement using Sparse Reference and Estimated Soft-Mask Exemplar-Pairs for Noisy Speech Recognition // Proc. IEEE Intern. Conf. ICASSP, Florence, Italy. 2014. P. 1710-1714. doi:10.1109/ICASSP.2014.6853890

3. Chang S. Y., Meyer B. T., Morgan N. Spectro-Temporal Features for Noise-Robust Speech Recognition using Power-Law Nonlinearity and Power-Bias Subtraction // Proc. IEEE Intern. Conf. ICASSP, Vancouver, Canada. 2013. P. 7063-7067. doi: 10.1109/ ICASSP.2013.6639032

4. Mandel M. I., Narayanan A. Analysis by Synthesis Feature Estimation for Robust Automatic Speech Recognition using Spectral Masks // Proc. IEEE Intern. Conf. ICASSP, Florence, Italy. 2014. P. 25282532. doi:10.1109/ICASSP.2014.6854052

5. Alam J., Kenny P., Dumouchel P., O’Shaughnessy D. Noise Spectrum Estimation using Gaussian Mixture Model-based Speech Presence Probability for Robust Speech Recognition // Proc. 15th Intern. Conf. INTERSPEECH, Singapore. 2014. P. 2759-2763.

6. Arsikere H., Alwan A. Frequency Warping using Subglottal Resonances: Complementarity with VTLN and Robustness to Additive Noise // Proc. IEEE Intern. Conf. ICASSP, Florence, Italy. 2014. P. 62996303. doi:10.1109/ICASSP.2014.6854817

7. Alam J., Kenny P., Stafylakis T. Combining Amplitude and Phase-based Features for Speaker Verification with Short Duration Utterances // Proc. 16th Intern. Conf. INTERSPEECH, Dresden, Germany. 2015. P. 249-253.

8. Attabi Y., Alam J., Dumouchel P., Kenny P. Multiple Windowed Spectral Features for Emotion Recognition // Proc. IEEE Intern. Conf. ICASSP,

9. Vaz C., Tsiartas A., Narayanan S. Energy-Constrained Minimum Variance Response Filter for Robust Vowel Spectral Estimation // Proc. IEEE Intern. Conf. ICASSP, Florence, Italy. 2014. P. 6275-6279. doi:10.1109/ICASSP.2014.6854811

10. Alam J., Kenny P., O’Shaughnessy D. Regularized Minimum Variance Distortionless Response-Based Cepstral Features for Robust Continuous Speech Recognition // Speech Communication. 2015. Vol. 73. P. 28-46.

11. Slaney M., Seltzer M. L. The Influence of Pitch and Noise on the Discriminability of Filterbank Features // Proc. 15th Intern. Conf. INTERSPEECH, Singapore. 2014. P. 2263-2267.

12. Chang S. Y., Wegmann S. On the Importance of Modeling and Robustness for Deep Neural Network Feature // Proc. IEEE Intern. Conf. ICASSP, South Brisbane, Australia. 2015. P. 4530-4534. doi:10.1109/ ICASSP.2015.7178828

13. Plchot O., Matsoukas S., Matejka P., Dehak N. Developing a Speaker Identification System for the DARPA RATS Project // Proc. IEEE Intern. Conf. ICASSP, Vancouver, Canada. 2013. P. 6768-6772. doi:10.1109/ ICASSP.2013.6638972

14. Mitra V., McLaren M., Franco H., Graciarena M. Modulation Features for Noise Robust Speaker Identification // Proc. 14th Intern. Conf. INTERSPEECH, Lyon, France. 2013. P. 3703-3707.

15. Zhao X., Wang D. Analyzing Noise Robustness of MFCC and GFCC Features in Speaker Identification // Proc. IEEE Intern. Conf. ICASSP, Vancouver, Canada. 2013. P. 7204-7208. doi: 10.1109/ ICASSP.2013.6639061

16. Meyer B. T., Spille C., Kollmeier B., Morgan N. Hooking up Spectro-Temporal Filters with Auditory-Inspired Representations for Robust Automatic Speech Recognition // Proc. 13th Intern. Conf. INTER-SPEECH, Portland, USA. 2012. P. 1259-1262.

17. Kollmeier B., Schaedler M. R., Meyer A. F. Do We Need STRFs for Cocktail Parties? On the Relevance of Physiologically Motivated Features for Human Speech Perception Derived from Automatic Speech Recognition // Advances in Experimental Medicine and Biology. 2013. Vol. 787. P. 333-341. doi:10.1007/978-1-4614-1590-9_37

18. Dai P., Soon Y. An Improved Model of masking effects for Robust Speech Recognition System // Speech Communication. 2013. Vol. 55. P. 387-396. doi:10.1016/j.specom.2012.12.005

19. Xugang L., Gang L., Lipo W. Lateral Inhibition Mechanism in Computational Auditory Model and its Application in Robust Speech Recognition // Neural Networks for Signal Processing X, 2000: Proc. of the 2000 IEEE Signal Processing Society Workshop. 2000. Vol. 2. P. 785-794. doi:10.1109/ nnsp.2000.890158

20. ISO/IEC International Standard 11172-3. Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbits/s. Part 3: Audio. - Geneva, 1993.

21. Premananda B. S., Uma B. V. Incorporating Auditory Masking Properties for Speech Enhancement in Presence of Near-end Noise // Intern. Journal of Computer Applications. 2014. Vol. 106. N 15. P. 1-6.

22. Painter T., Spanias A. Perceptual Coding of Digital Audio // Proc. of the IEEE. 2000. Vol. 88. N 4. P. 451-513.

23. Lee L. M. HMM Speech Recognition in Matlab. http:// sourceforge.net/projects/hmm-asr-matlab/ (дата обращения: 20.09.2015).

24. Lee L. M. Duration High-Order Hidden Markov Models and Training Algorithms for Speech Recognition // Journal of Information Science and Engineering. 2015. Vol. 31. N 3. P. 799-820.

25. Gonzalez S., Brookes M. PEFAC - a Pitch Estimation Algorithm Robust to High Levels of Noise // IEEE/ ACM Transactions on Audio, Speech and Language Processing (TASLP). 2014. Vol. 22. N 2. P. 518-530. doi:10.1109/TASLP.2013.2295918

26. Dai P., Soon Y. A Temporal Frequency Warped (TFW) 2D Psychoacoustic Filter for Robust Speech Recognition System // Speech Communication. 2011. Vol. 53. P. 229-241. doi:10.1016/j.specom.2011.10.004

27. Noll P. MPEG Digital Audio Coding Standards // The Digital Signal Processing Handbook/Ed. by V. K. Madisetti and D. B. Williams. - IEEE Press/ CRC Press, 1998. P. 40-1-40-28.


Дополнительные файлы

Для цитирования: Томчук К.К. Применение частотного маскирования при MFCC-параметризации речи на фоне шумов. Информационно-управляющие системы. 2016;(3):8-14. https://doi.org/10.15217/issn1684-8853.2016.3.8

For citation: Tomchuk K.K. Frequency Masking in Speech MFCC-Parameterization in Presence of Noise. Information and Control Systems. 2016;(3):8-14. (In Russ.) https://doi.org/10.15217/issn1684-8853.2016.3.8

Просмотров: 28


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)