Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи


https://doi.org/10.31799/1684-8853-2019-2-26-34

Полный текст:


Аннотация

Введение: эффективность работы современных систем автоматического распознавания речи в тихих акустических условиях достаточно высока и в среднем достигает 90-95 %. Однако в неконтролируемой среде зачастую происходит искажение звукового сигнала, что сильно снижает результирующую точность распознавания. В подобных условиях представляется целесообразным использовать визуальную информацию о речи, так как она не подвержена влиянию акустического шума. На настоящий момент не существует исследований, объективно показывающих зависимость точности распознавания визуальной речи от частоты кадров видео. Также отсутствуют соответствующие аудиовизуальные базы данных для обучения моделей.

Цель: сбор представительной базы данных, разработка и исследование автоматической системы аудиовизуального распознавания слитной русской речи.

Методы: для распознавания речевых сигналов применяются методы на основе сдвоенных скрытых марковских моделей. Для параметрического представления акустических и визуальных сигналов применяются методы на основе мел-частотных кепстральных коэффициентов и пиксельные признаки, использующие анализ главных компонент.

Результаты: исследовались видеоданные с пятью различными скоростями следования кадров: 25, 50, W0, 150 и 200 кадров в секунду. Эксперименты показали положительный эффект от использования высокоскоростной видеокамеры: удалось добиться абсолютного прироста точности на 1,48 % для бимодальной и 3,10 % для одномодальной системы по сравнению со стандартной скоростью записи 25 кадров в секунду. В результате экспериментов с зашумленными данными удалось установить, что бимодальное распознавание речи превосходит по точности распознавания одномодальное, особенно для низких значений ОСШ < 15 дБ. При очень низких значениях ОСШ < 5 дБ акустическая информация становится неинформативной, и наилучшие результаты показывает одномодальная система видеораспознавания речи. Практическая значимость: использование высокоскоростной камеры позволяет улучшить точность и робастность системы распознавания слитной русской речи.

 


Об авторах

Д. В. Иванько
Санкт-Петербургский институт информатики и автоматизации РАН; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики; Ульмский университет
Россия

Иванько Денис Викторович – аспирант, младший научный сотрудник лаборатории речевых и многомодальных интерфейсов; Ульмский университет

14-я линия В. О., 39, Санкт-Петербург, 199178; Кронверкский пр., 49, Санкт-Петербург, 197101; Гельмгольцштрассе, 16, 89081, Ульм



Д. А. Рюмин
Санкт-Петербургский институт информатики и автоматизации РАН; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Россия

Рюмин Дмитрий Александрович - аспирант.

14-я линия В. О., 39, Санкт-Петербург, 199178; Кронверкский пр., 49, Санкт-Петербург, 197101


А. А. Карпов
Санкт-Петербургский институт информатики и автоматизации РАН; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Россия

Карпов Алексей Анатольевич - доктор технических наук, доцент, Главный научный сотрудник, руководитель лаборатории речевых и многомодальных интерфейсов.

14-я линия В. О., 39, Санкт-Петербург, 199178; Кронверкский пр., 49, Санкт-Петербург, 197101



М. Железны
Западночешский университет
Чехия

Железны Милош - доктор технических наук, доцент.

Университетская ул., 2732/8, 30100, Пльзень



Список литературы

1. Katsaggelos K., Bahaadini S., Molina R. Audiovisual Fusion: Challenges and New Approaches. Proc. of the IEEE, 2015, vol. 103, no. 9, pp. 1635-1653.

2. Zhou Z., Zhao G., Hong X., Pietikainen M. A review of recent advances in visual speech decoding. Proc. of the Image and Vision Computing, 2014, vol. 32, pp. 590-605.

3. Ivanko D., Karpov A., Ryumin D., Kipyatkova I., Saveliev A., Budkov V., Zelezny M. Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions. Intern. Conf. on Speech and Computer (SPECOM), 2017, pp. 757-766.

4. Chitu A. G., Driel K., Rothkrantz L. J. M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings. Text, Speech and Dialogue, SpringerLNCS (LNAI), 2010, vol. 6231, pp. 259-266.

5. Rajavel R., Sathidevi P. S. Adaptive reliability measure and optimum integration weight for decision fusion audio-visual speech recognition. Journal of Signal Processing Systems, 2012, vol. 68, no. 1, pp. 83-93.

6. Stewart D., Seymour R., Pass A., Ming J. Robust audio-visual speech recognition under noisy audio-video conditions. IEEE Transactions on Cybernetics, Feb. 2014, vol. 44, no. 2, pp. 175-184.

7. Abhishek N., Prasanta K. G. PRAV: a phonetically rich audio visual corpus. Proc. of the Interspeech, 2017, pp. 37473751.

8. Verkhodanova V., Ronzhin A., Kipyatkova I., Ivanko D., Karpov A., Zelezny M. HAVRUS Corpus: High-Speed Recordings of Audio-Visual Russian Speech Intern. Conf. on Speech and Computer (SPECOM), 2016, vol. 9811, pp. 338-345.

9. Shivappa S. T., Trivedi M. M., Rao B. D. Audiovisual information fusion in human-computer interfaces and intelligent environments: A survey. Proc. of IEEE, 2010, vol. 98, no. 10, pp. 1692-1715.

10. Abdelaziz A. H., Kolossa D. Dynamic stream weight estimation in coupled HMM-based audio-visual speech recognition using multilayer perceptrons. Proc. of the Interspeech, 2014, pp. 1144-1148.

11. Huang J., Kingsbury B. Audio-visual deep learning for noise robust speech recognition. Proc. of the IEEE Intern. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2013, pp. 7596-7599.

12. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks. Proc. of the IEEE Intern. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2013, pp. 6645-6649.

13. Shiell D. J., Terry L. H., Aleksic P. S., Katsaggelos A. K. Audio-visual and visual-only speech and speaker recognition: Issues about theory, system design and implementation. In: Visual Speech Recognition: Lip Segmentation and Mapping. IGI Global, 2009. Pp. 1-38.

14. Abdelaziz A. H., Zeiler S., Kolossa D. A new EM estimation of dynamic stream weights for coupled-HMM-based audio-visual ASR. Proc. of IEEE Intern. Conf. on Acoustic Speech and Signal Processing (ICASSP), 2014, pp. 54-62.

15. Kumar S., Bhuyan M. K., Chakraborty B. K. Extraction of texture and geometrical features from informative facial regions for sign language recognition. Journal of Multimodal User Interfaces (JMUI), 2017, vol. 11, no. 2, pp. 227239.

16. Lan Y., Theobald B., Harvey E., Ong E., Bowden R. Improving visual features for lip-reading. Proc. of Auditory-Visual Speech Processing (AVSP), 2010, pp. 142-147.

17. Khafizov R. G., Yaranceva T. V. Estimation of geometrical distortions of lip contours in visual input systems. Infor-matsionno-upravliaiushchie sistemy [Information and Control Systems], 2017, no. 4, pp. 2-6 (In Russian). doi:10.15217

18. Kukharev G. A., Kamenskaya E. I., Matveev Yu. N., Scheg-oleva N. L. Metody obrabotki i raspoznavaniya izobrazhenij lits v zadachakh biometrii [Methods of Facial Images Processing and Recognition in Biometrics]. Saint-Petersburg, Politekhnika Publ., 2013. 388 p. (In Russian).

19. Ivanko D., Karpov A., Fedotov D., Kipyatkova I., Ryumin D., Ivanko Dm., Minker W., Zelezny M. Multimodal speech recognition: increasing accuracy using high speed video data. Journal of Multimodal User Interfaces, 2018, vol. 12, no. 4, pp. 319-328.

20. Ivanko D. V., Kipyatkova I. S., Ronzhin A. L., Karpov A. A. Analysis of multimodal fusion techniques for audio-visual speech recognition. Nauchno-tehnicheskij vestnik informa-cionnyh tehnologij, mehaniki i optiki [Scientific and Technical Journal of Information Technologies, Mechanics and Optics], 2016, vol. 16, no. 3, pp. 387-401 (In Russian).

21. Estellers V., Gurban M., Thiran J. On dynamic stream weighting for audio-visual speech recognition. IEEE Transactions on Audio, Speech and Language Processing, 2012, vol. 20, no. 4, pp. 1145-1157.

22. Stewart D., Seymour R., Pass A., Ming J. Robust audio-visual speech recognition under noisy audio-video conditions. IEEE Transactions on Cybernetics, 2013, vol. 44, no. 2, pp. 175-184.


Дополнительные файлы

Для цитирования: Иванько Д.В., Рюмин Д.А., Карпов А.А., Железны М. Исследование влияния высокоскоростных видеоданных на точность распознавания аудиовизуальной речи. Информационно-управляющие системы. 2019;(2):26-34. https://doi.org/10.31799/1684-8853-2019-2-26-34

For citation: Ivanko D.V., Ryumin D.A., Karpov A.A., Zelezny M. Measuring the effect of high-speed video data on the audio-visual speech recognition accuracy. Information and Control Systems. 2019;(2):26-34. (In Russ.) https://doi.org/10.31799/1684-8853-2019-2-26-34

Просмотров: 40


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)