Анализ стратегий и методов объединения многомодальной информации


https://doi.org/10.15217/issn1684-8853.2015.2.7

Полный текст:


Аннотация

Постановка проблемы: в области искусственного интеллекта при проектировании многомодальных инфокомму- никационных систем и человеко-машинных интерфейсов крайне актуальны вопросы объединения разнородной информации (текстовой, акустической, визуальной и иных типов), поступающей как от пользователей, так и к ним по различным входным и выходным каналам коммуникации. Основная проблема при разработке и использовании многомодальных инфокоммуникационных систем заключается в том, что для них необходимы эффективные и надежные методы и технологии автоматического распознавания сигналов от каждой модальности, а также многомодального объединения информации и принятия решений. Цель: аналитический обзор научных методологических основ построения интеллектуальных инфокоммуникационных систем, опирающихся на многомодальные человеко-машинные интерфейсы. Результаты: представлен широкий спектр современной научно-технической литературы, описывающей результаты мировых научных исследований по данной теме за последнее десятилетие. Комплексный анализ существующих стратегий и математических методов обработки и интеграции многомодальной информации (на основе раннего, позднего и гибридного подходов к объединению), учета взаимной корреляции и синхронизации модальностей показал, что для большинства прикладных задач разработаны адекватные и эффективные способы объединения и разделения модальностей, которые должны грамотно применяться на этапе проектирования интеллектуальных систем.

Об авторах

Олег Олегович Басов
Академия Федеральной службы охраны Российской Федерации
Россия


Алексей Анатольевич Карпов
Санкт-Петербургский институт информатики и автоматизации РАН
Россия


Список литературы

1. Басов О. О., Саитов И. А. Основные каналы межличностной коммуникации и их проекция на инфокоммуникационные системы // Тр. СПИИРАН. 2013. Вып. 30. С. 122-140.

2. Atrey P. K., Hossain M. A., Kankanhalli M. S. Multimodal Fusion for Multimedia Analysis: a Survey // Multimedia Systems. 2010. Vol. 16. Iss. 6. P. 345-379.

3. Snoek C. G. M., Worring M., Smeulders A. W. M. Early Versus Late Fusion in Semantic Video Analysis // Proc. ACM Intern. Conf. on Multimedia, Singapore, 2005. P. 399-402.

4. Yang M. T., Wang S. C., Lin Y. Y. A Multimodal Fusion System for People Detection and Tracking // Intern. Journal of Imaging Systems and Technology. 2005. N 15. P. 131-142.

5. Kankanhalli M. S., Wang J., Jain R. Experiential Sampling in Multimedia Systems // IEEE Transactions on Multimedia. 2006. N 5(8). P. 937-946.

6. Neti C., et al. Joint Processing of Audio and Visual Information for Multimedia Indexing and Human- Computer Interaction // Proc. Intern. Conf. RIAO, France, 2000. P. 294-301.

7. Карпов А. А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // Автоматика и Телемеханика. 2014. Т. 75. № 12. С. 125-138.

8. McDonald K., Smeaton A. F. A Comparison of Score, Rank and Probability-Based Fusion Methods for Video Shot Retrieval // Proc. Intern. Conf. on Image and Video Retrieval, Singapore, 2005. P. 61-70.

9. Radova V., Psutka J. An Approach to Speaker Identification Using Multiple Classifiers // Proc. IEEE Intern. Conf. ICASSP, Munich, Germany, 1997. P. 1135-1138.

10. Babaguchi N., Kawai Y., Kitahashi T. Event Based Indexing of Broadcasted Sports Video by Intermodal Collaboration // IEEE Transactions on Multimedia. 2002. Vol. 4. P. 68-75.

11. Holzapfel H., Nickel K., Stiefelhagen R. Implementation and Evaluation of a Constraint-Based Multimodal Fusion System for Speech and 3d Pointing Gestures // Proc. ACM Intern. Conf. on Multimodal Interfaces, USA, 2004. P. 175-182.

12. Adams W., et al. Semantic Indexing of Multimedia Content Using Visual, Audio, and Text Cues // EURASIP Journal on Applied Signal Processing. 2003. N 2. P. 170-185.

13. Wu K., Lin C. K., Chang E., Smith J. R. Multimodal Information Fusion for Video Concept Detection // Proc. IEEE Intern. Conf. on Image Processing, Singapore, 2004. P. 2391-2394.

14. Aguilar J. F., Garcia J. O., Romero D. G., Rodriguez J. G. A Comparative Evaluation of Fusion Strategies for Multimodal Biometric Verification // Proc. Intern. Conf. on Video-Based Biometric Person Authentication AVBPA, Guildford, UK, 2003. P. 830-837.

15. Bredin H., Chollet G. Audio-visual Speech Synchrony Measure for Talking-Face Identity Verification // Proc. IEEE Intern. Conf. on Acoustics, Speech and Signal Processing, Paris, France, 2007. Vol. 2. P. 233-236.

16. Wu Y., Chang E. Y., Chang K. C. C., Smith J. R. Optimal Multimodal Fusion for Multimedia Data Analysis // Proc. ACM Intern. Conf. on Multimedia, N. Y., USA, 2004. P. 572-579.

17. Zhu Q., Yeh M. C., Cheng K. T. Multimodal Fusion Using Learned Text Concepts for Image Categorization // Proc. ACM Intern. Conf. on Multimedia, S. Barbara, USA, 2006. P. 211-220.

18. Ayache S., Quenot G., Gensel J. Classifier Fusion for SVM-based Multimedia Semantic Indexing // Proc. 29th European Conf. on Information Retrieval Research, Rome, Italy, 2007. P. 494-504.

19. Pitsikalis V., Katsamanis A., Papandreou G., Mara- gos P. Adaptive Multimodal Fusion by Uncertainty Compensation // Proc. 9th Intern. Conf. Interspeech-2006, Pittsburgh, USA, 2006. P. 17-21.

20. Meyer G., Mulligan J., Wuerger S. Continuous Audiovisual Digit Recognition Using N-best Decision Fusion // Information Fusion. 2004. Vol. 5(2). P. 91-101.

21. Xu H., Chua T. S. Fusion of AV Features and External Information Sources for Event Detection in Team Sports Video // ACM Transactions on Multimedia Computing Communications and Applications. 2006. Vol. 2(1). P. 44-67.

22. Atrey P. K., Kankanhalli M. S., Jain R. Information Assimilation Framework for Event Detection in Multimedia Surveillance Systems // ACM/Springer Multimedia Systems Journal. 2006. Vol. 12(3). P. 239-253.

23. Mena J. B., Malpica J. Color Image Segmentation Using the Dempster-Shafer Theory of Evidence for the Fusion of Texture // Intern. Archives of Photogram- metry, Remote Sensing and Spatial Information Sciences. 2003. Vol. XXXIV. Part 3/W8. P. 139-144.

24. Bendjebbour A., et al. Multisensor Image Segmentation Using Dempster-Shafer Fusion in Markov Fields Context // IEEE Transactions on Geoscience and Remote Sensing. 2001. Vol. 39(8). P. 1789-1798.

25. Guironnet M., Pellerin D., Rombaut M. Video Classification Based on Low-Level Feature Fusion Model // Proc. 13th European Signal Processing Conf. EUSIPCO-2005, Antalya, Turkey, 2005. www.eurasip. org/Proceedings/Eusipco/Eusipco2005/defevent/pa- pers/cr1344.pdf (дата обращения: 30.09.2014).

26. Singh R., Vatsa M., Noore A., Singh S. K. Dempster- Shafer Theory Based Finger Print Classifier Fusion with Update Rule to Minimize Training Time // IEICE Electronics Express. 2006. Vol. 3(20). P. 429-435.

27. Reddy B. S. Evidential Reasoning for Multimodal Fusion in Human Computer Interaction: Master of Science Thesis. - University of Waterloo, Canada. 2007. - 84 p.

28. Wang Y., Liu Z., Huang J. C. Multimedia Content Analysis: Using Both Audio and Visual Clues // IEEE Signal Processing Magazine. 2000. Vol. 17. Iss. 6. P. 12-36.

29. Nefian A. V., Liang L., Pi X., Liu X., Murphye K. Dynamic Bayesian Networks for Audio-visual Speech Recognition // EURASIP Journal on Advances in Signal Processing. 2002. N 11. P. 1-15.

30. Nock H. J., Iyengar G., Neti C. Speaker Localisation Using Audio-visual Synchrony: an Empirical Study // Proc. Intern. Conf. on Image and Video Retrieval, Urbana-Champaign, USA, 2003. P. 468-477.

31. Chaisorn L., et al. A Multi-modal Approach to Story Segmentation for News // World Wide Web. 2003. N 6. P. 187-208.

32. Hershey J., Attias H., Jojic N., Krisjianson T. Audio Visual Graphical Models for Speech Processing // Proc. IEEE Intern. Conf. on Speech, Acoustics, and Signal Processing, Montreal, Canada, 2004. P. 649-652.

33. Noulas A., Krose B. EM Detection of Common Origin of Multi-modal Cues // Proc. Intern. Conf. on Multimodal Interfaces, Canada, 2006. P. 201-208.

34. Ding Y., Fan G. Segmental Hidden Markov Models for View-Based Sport Video Analysis // Proc. Intern. Workshop on Semantic Learning Applications in Multimedia, Minneapolis, USA, 2007. P. 1-8.

35. Wu Y., Chang E., Tsengh B. L. Multimodal Metadata Fusion Using Causal Strength // Proc. ACM Intern. Conf. on Multimedia, Singapore, 2005. P. 872-881.

36. Town C. Multi-sensory and Multi-modal Fusion for Sentient Computing // Intern. Journal of Computer Vision. 2007. Vol. 71. P. 235-253.

37. Xie L., et al. Layered Dynamic Mixture Model for Pattern Discovery in Asynchronous Multi-modal Streams // Proc. IEEE Intern. Conf. ICASSP, USA, 2005. Vol. 2. P. 1053-1056.

38. Cutler R., Davis L. Look who’s Talking: Speaker Detection Using Video and Audio Correlation // Proc. IEEE Intern. Conf. on Multimedia and Expo, New York City, USA, 2000. P. 1589-1592.

39. Gandetto M., et al. From Multi-Sensor Surveillance Towards Smart Interactive Spaces // Proc. IEEE Intern. Conf. on Multimedia and Expo, USA, 2003. P. 641-644.

40. Ni J., Ma X., Xu L., Wang J. An Image Recognition Method Based on Multiple BP Neural Networks Fusion // Proc. IEEE Intern. Conf. on Information Acquisition. 2007. P. 429-435.

41. Magalhaes J., Ruger S. Information-Theoretic Semantic Multimedia Indexing // Proc. Intern. Conf. on Image and Video Retrieval, Amsterdam, 2007. P. 619-626.

42. Andrieu C., Doucet A., Singh S., Tadic V. Particle Methods for Change Detection, System Identification, and Control // Proc. of IEEE. 2004. Vol. 92(3). P. 423-438.

43. Loh A., Guan F., Ge S. S. Motion Estimation Using Audio and Video Fusion //Proc. Intern. Conf. on Control, Automation, Robotics and Vision. 2004. Vol. 3. P. 1569-1574.

44. Gehrig T., et al. Kalman Filters for Audio-video Source Localization //Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, Germany, 2005. P. 118-121.

45. Talantzis F., Pnevmatikakis A., Polymenakos L. C. Real Time Audio-visual Person Tracking // Proc. IEEE 8th Workshop on Multimedia Signal Processing, Victoria, USA, 2006. P. 243-247.

46. Zotkin D. N., Duraiswami R., Davis L. S. Joint Audio-visual Tracking Using Particle Filters // EURASIP Journal on Advances in Signal Processing. 2011. N 11. P. 1154-1164.

47. Nickel K., Gehrig T., Stiefelhagen R., McDonough J. A Joint Particle Filter for Audio-visual Speaker Tracking // Proc. 7th Intern. Conf. on Multimodal Interfaces, Trento, Italy, 2005. P. 61-68.

48. Wang Y., Liu Z., Huang J. C. Multimedia Content Analysis: Using both Audio and Visual Clues // IEEE Signal Processing Magazine. 2000. N 17(6). P. 12-36.

49. Nefian A. V., et al. Dynamic Bayesian Networks for Audio-visual Speech Recognition // EURASIP Journal on Applied Signal Processing. 2002. N 11. P. 1-15.

50. Beal M. J., Jojic N., Attias H. A Graphical Model for Audiovisual Object Tracking// IEEE Transactions on Pattern Analysis and Machine Intelligence. 2003. N 25. P. 828-836.

51. Li M., Li D., Dimitrove N., Sethi I. K. Audio-visual Talking Face Detection // Proc. Intern. Conf. on Multimedia and Expo, Baltimore, USA, 2003. P. 473-476.

52. Устинов А. А. Стохастическое кодирование видео- и речевой информации: монография / под ред. В. Ф. Комаровича; Военная академия связи. - СПб., 2005. Ч. 1. - 220 с.

53. Fisher-III J., Darrell T., Freeman W., Viola P. Learning Joint Statistical Models for Audio-visual Fusion and Segregation // Advances in Neural Information Processing Systems. 2000. P. 772-778.

54. Hershey J., Movellan J. Audio-Vision: Using Audio-visual Synchrony to Locate Sounds // Advances in Neural Information Processing Syst. 2000. Vol. 12. P. 813-819.

55. Iyengar G., Nock H. J., Neti C. Audio-visual Synchrony for Detection of Monologue in Video Archives // Proc. IEEE Intern. Conf. on Acoustics, Speech, and Signal Processing, Hong Kong, 2003. P. I-329-32.

56. Chetty G., Wagner M. Audio-visual Multimodal Fusion for Biometric Person Authentication and Liveness Verification // Proc. NICTA-HCSNet Multimodal User Interaction Workshop, Sydney, Australia, 2006. P. 17-24.

57. Slaney M., Covell M. Facesync: A Linear Operator for Measuring Synchronization of Video Facial Images and Audio Tracks // Proc. Neural Information Processing Society, Denver, USA, 2001. P. 814-820.

58. Bredin H., Chollet G. Audiovisual Speech Synchrony Measure: Application to Biometrics // EURASIP Journal on Advances in Signal Proc. 2007. P. 1-11.

59. Li D., Dimitrova N., Li M., Sethi I. K. Multimedia Content Processing Through Cross-Modal Association // Proc. ACM Intern. Conf. on Multimedia, Berkeley, USA, 2003. P. 2-5.

60. Stauffer C. Automated Audio-visual Activity Analysis// Technical report, MIT-CSAIL-TR-2005-057, USA, 2005. https://dspace.mit.edu/bitstream/han- dle/1721.1/30 568/MIT-CSAIL-TR-20 05-057. pdf?sequence=2 (дата обращения: 30.09.2014).

61. Карпов А. А., Цирульник Л. И., Железны М. Разработка компьютерной системы «говорящая голова» для аудиовизуального синтеза русской речи по тексту // Информационные технологии. 2010. Т. 9. № 8. С. 13-18.


Дополнительные файлы

Для цитирования: Басов О.О., Карпов А.А. Анализ стратегий и методов объединения многомодальной информации. Информационно-управляющие системы. 2015;(2):7-14. https://doi.org/10.15217/issn1684-8853.2015.2.7

For citation: Basov O.O., Karpov A.A. Analysis of Strategies and Methods for Multimodal Information Fusion. Information and Control Systems. 2015;(2):7-14. (In Russ.) https://doi.org/10.15217/issn1684-8853.2015.2.7

Просмотров: 98


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)