Автоматическое аннотирование изображений на основе однородных текстово-визуальных групп


https://doi.org/10.15217/issn1684-8853.2016.2.11

Полный текст:


Аннотация

Постановка проблемы: задача автоматического аннотирования изображений нетривиальна: часто обучающие наборы несбалансированы и содержат неполные аннотации, а между визуальными признаками и текстовым описанием изображения наблюдается семантический разрыв. Существующие методы решают эти проблемы, используя для аннотации нового изображения все обучающие изображения и ключевые слова, в том числе заведомо нерелевантные, что потенциально снижает точность и требует лишних вычислений. При этом используются визуальные признаки большой размерности, что также неэффективно в вычислительном плане. В связи с этим возникает необходимость разработки компактного визуального дескриптора и метода аннотирования тестового изображения с помощью небольшой группы наиболее информативных обучающих изображений. Результаты: разработана методика автоматического аннотирования изображений, основанная на поиске апостериорной вероятности ассоциации ключевого слова с визуальным дескриптором изображения. Получены шесть глобальных дескрипторов, объединенных в один дескриптор, размер которого уменьшен с помощью метода главных компонент до нескольких сотен элементов. Проведенные экспериментальные исследования показали улучшение точности аннотирования на 7 % и отклика на 1 %. Практическая значимость: разработанный компактный визуальный дескриптор и метод автоматического аннотирования изображений на основе формирования однородных текстово-визуальных групп может быть использован в информационно-поисковых системах в сети Интернет для повышения эффективности поиска изображений.

Об авторах

А. В. Проскурин
Сибирский государственный аэрокосмический университет им. академика М. Ф. Решетнёва
Россия


М. Н. Фаворская
Сибирский государственный аэрокосмический университет им. академика М. Ф. Решетнёва
Россия


Список литературы

1. Makadia A., Pavlovic V., Kumar S. A New Baseline for Image Annotation // Proc. 10th European Conf. on Computer Vision, Marseille, France, 2008. Vol. 5304. P. 316-329.

2. Guillaumin M., Mensink T., Verbeek J., Schmid C. TagProp: Discriminative Metric Learning in Nearest Neighbor Models for Image Auto-Annotation // Proc. IEEE 12th Intern. Conf. on Computer Vision, Kyoto, Japan, 2009. P. 309-316.

3. Verma Y., Jawahar C. V. Image Annotation Using Metric Learning in Semantic Neighbourhoods // Proc. 12th European Conf. on Computer Vision, Florence, Italy, 2012. Vol. 7574. P. 836-849.

4. Chen M., Zheng A., Weinberger K. Q. Fast Image Tagging // Proc. 30th Intern. Conf. on Machine Learning, Atlanta, USA, 2013. P. 1274-1282.

5. Blondel V. D., Guillaume J. L., Lambiotte R., Lefebvre E. Fast Unfolding of Communities in Large Networks // Journal of Statistical Mechanics: Theory and Experiment. 2008. Vol. 2008. P10008.

6. Shen F., Ogura T., Hasegawa O. An Enhanced Self-Organizing Incremental Neural Network for Online Unsupervised Learning // Neural Networks. 2007. Vol. 20(8). P. 893-903.

7. IAPR TC-12 Benchmark. http://www-i6.informatik. rwth-aachen.de/imageclef/resources/iaprtc12.tgz (дата обращения: 22.02.2016).

8. Lowe D. G. Distinctive Image Features from Scale-Invariant Keypoints // Intern. Journal of Computer Vision. 2004. Vol. 60(2). P. 91-110.

9. Bay H., Ess A., Tuytelaars T., Gool L. V. Speeded-Up Robust Features (SURF) // Computer Vision and Image Understanding. 2008. Vol. 110(3). P. 346-359.

10. Yang J., Yu K., Gong Y., Huang T. Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Miami, USA, 2009. P. 1794-1801.

11. Wang J., et al. Locality-Constrained Linear Coding for Image Classification/ J. Wang, J. Yang, K. Yu, F. Lv, T. Huang, Y. Gong // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010. P. 3360-3367.

12. Jegou H., Douze M., Schmid C., Perez P. Aggregating Local Descriptors into a Compact Image Representation // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010. P. 3304-3311.

13. Проскурин А. В. Быстрый локальный дескриптор для категоризации изображений по типу сцены // Решетневские чтения: материалы XIX Междунар. науч.-практ. конф., Красноярск, 10-14 ноября 2015 г. Красноярск, 2015. Т. 2. С. 243-245.

14. Alcantarilla P. F., Bergasa L. M., Davison A. J. Gauge-SURF Descriptors // Image and Vision Computing. 2013. Vol. 31(1). P. 103-116.

15. Favorskaya M., Proskurin A. Image Categorization Using Color G-SURF Invariant to Light Intensity // Procedia Computer Science. 2015. Vol. 60. P. 681-690.

16. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607 с.

17. Feng S., Manmatha R., Lavrenko V. Multiple Bernoulli Relevance Models for Image and Video Annotation // Proc. IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Washington, USA, 2004. Vol. 2. P. 1002-1009.

18. Zhang S., Huang J., Li H., Metaxas D. N. Automatic Image Annotation and Retrieval Using Group Sparsity // IEEE Transactions on Systems, Man, and Cybernetics. Part B: Cybernetics. 2012. Vol. 42(3). P. 838-849.


Дополнительные файлы

Для цитирования: Проскурин А.В., Фаворская М.Н. Автоматическое аннотирование изображений на основе однородных текстово-визуальных групп. Информационно-управляющие системы. 2016;81(2):11-18. https://doi.org/10.15217/issn1684-8853.2016.2.11

For citation: Proskurin A.V., Favorskaya M.N. Automatic Image Annotation Based on Homogeneous Textual-Visual Groups. Information and Control Systems. 2016;81(2):11-18. (In Russ.) https://doi.org/10.15217/issn1684-8853.2016.2.11

Просмотров: 51


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)