Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Кластеризация данных в распределенных системах мониторинга


https://doi.org/10.31799/1684-8853-2019-2-35-43

Полный текст:


Аннотация

Введение: традиционные способы анализа распределенных источников данных обычно используют централизованные хранилища данных и имеют ряд недостатков, связанных с конфиденциальностью, высокой стоимостью централизованного хранения данных, ограниченной пропускной способностью и высокой нагрузкой на телекоммуникационные сети. Методики, по которым выполняется децентрализованный анализ, не учитывают вид распределения данных и особенности выбранного алгоритма. Это снижает производительность и точность анализа или может быть причиной невыполнимости его в заданных условиях.

Цель: обзор и анализ особенностей работы распределенных систем мониторинга и алгоритмов интеллектуального анализа данных.

Результаты: для проведения кластеризации на основе распределенных источников данных установлены требования к алгоритму в системах распределенного мониторинга: однопроход-ность, поддержка разных типов входных данных, работа онлайн-режима, адаптация к данным при изменении среды, масштабирование больших объемов данных, выполнение анализа без предположений о распределении входных данных, анализ данных на источниках информации без их передачи третьей стороне. Определены два основных способа распределения данных на источниках в гетерогенных системах: вертикальный и горизонтальный. Выполнена классификация методов в соответствии с их основным принципом разграничения кластеров. Классификация включает основные алгоритмы кластеризации, их принцип работы, достоинства и недостатки. Обзор и анализ существующих методов кластеризации выявил, что в распределенных системах мониторинга наиболее эффективными являются алгоритмы на основе нейронных сетей Кохонена. Декомпозирован алгоритм самоорганизующихся карт Кохонена и определены блоки работы с данными: вычисление нейрона-победителя и настройка весов нейронов. Предложены две стратегии кластеризации распределенных данных. Практическая значимость: предложенные стратегии позволяют выполнять кластеризацию в системах с распределенными источниками с учетом характеристик среды без передачи всех данных.


Об авторе

А. Н. Рукавицына
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
Россия

Рукавицын Андрей Николаевич – аспирант.

Профессора Попова ул., 5, Санкт-Петербург, 197376



Список литературы

1. Catarinucci L., et al. An IoT-aware architecture for smart healthcare systems. IEEE Internet of Things Journal, 2015, vol. 2, no. 6, pp. 515-526.

2. Andreu-Perez J., et al. From wearable sensors to smart implants — toward pervasive and personalized healthcare. IEEE Transactions on Biomedical Engineering, 2015, vol. 62, no. 12, pp. 2750-2762.

3. Del Vecchio P., et al. Creating value from social big data: Implications for smart tourism destinations. Information Processing & Management, 2018, vol. 54, no. 5, pp. 847-860.

4. Bendechache M., Kechadi M. T., Le-Khac N. A. Efficient large scale clustering based on data partitioning. Data Science and Advanced Analytics (DSAA), 2016 IEEE Intern. Conf., 2016, pp. 612-621.

5. Aouad L. M., Le-Khac N. A., Kechadi T. M. Lightweight clustering technique for distributed data mining applications. Industrial Conf. on Data Mining, Springer, Berlin, Heidelberg, 2007, pp. 120-134.

6. Le-Khac N. A., Aouad L. M., Kechadi M. T. A new approach for distributed density based clustering on grid platform. British National Conf. on Databases, Springer, Berlin, Heidelberg, 2007, pp. 247-258.

7. Januzaj E., Kriegel H. P., Pfeifle M. DBDC: Density based distributed clustering. Intern. Conf. on Extending Database Technology, Springer, Berlin, Heidelberg, 2004, pp. 88-105.

8. Gorgonio F. L., Costa J. A. F. Parallel self-organizing maps with application in clustering distributed data. IEEE Intern. Joint Conf. Neural Networks (IJCNN 2008), 2008, pp. 3276-3283.

9. Kim M., Jung S., Park M. A distributed self-organizing map for DoS attack detection. Seventh Intern. Conf. Ubiquitous and Future Networks (ICUFN), 2015, pp. 19-22.

10. Ali A. A., et al. Distributed data mining systems: Techniques, approaches and algorithms. 22nd Intern. Conf. on Circuits, Systems, Communications and Computers (CSCC 2018), Majorca, Spain, July 14-17, 2018, vol. 210, p. 04038.

11. Song C., et al. Updating strategy of master-slave data consistency based on message. Computer Engineering, 2004, vol. 1, pp. 035.

12. Robert H. A majority consensus approach to concurrency control for multiple copy databases. ACM Trans. on Database System, 2003, vol. 4, no. 2, pp. 543-549.

13. Moro G., Sartori C. Incremental maintenance of multi-source views. Proc. of the 12th Australasian Database Conf, IEEE Computer Society, 2001, pp. 13-20.

14. Oussous A., et al. Big data technologies: A survey. Journal of King Saud University-Computer and Information Sciences, 2018, vol. 30, no. 4, pp. 431-448.

15. Li T., et al. Differentially private naive bayes learning over multiple data sources. Information Sciences, 2018, vol. 444, pp. 89-104.

16. Assurnjao M. D., et al. Big data computing and clouds: Trends and future directions. Journal of Parallel and Distributed Computing, 2015, vol. 79, pp. 3-15.

17. Duda R. O., Hart P. E., Stork D. G. Pattern classification. John Wiley & Sons, 2012. 688 p.

18. Bendechache M., Kechadi M. T. Distributed clustering algorithm for spatial data mining. 2nd IEEE Intern. Conf. on Spatial Data Mining and Geographical Knowledge Services (ICSDM), IEEE, 2015, pp. 60-65.

19. Saraswathi S., Sheela M. I. A comparative study of various clustering algorithms in data mining. International Journal of Computer Science and Mobile Computing, 2014, vol. 11, no. 11, pp. 422-428.

20. Sisodia D., et al. Clustering techniques: a brief survey of different clustering algorithms. International Journal of Latest Trends in Engineering and Technology (IJLTET), 2012, vol. 1, no. 3, pp. 82-87.

21. Qian W., Zhou A. Y. Analyzing popular clustering algorithms from different viewpoints. Journal of Software, 2002, vol. 13, no. 8, pp. 1382-1394.

22. Barsegyan A. A., Kupriyanov M. S., Stepanenko V. V., Kholod I. I. Tekhnologii analiza dannykh. Data Mining, Visual Mining, Text Mining, OLAP [Technologies of data analysis. Data Mining, Visual Mining, Text Mining, OLAP]. Saint-Petersburg, BKhV-Peterburg Publ., 2007. 384 p. (In Russian).

23. Bindra K., et al. Effective Data Clustering Algorithms. Soft Computing: Theories and Applications (SoCTA 2017), Springer, Singapore, 2019, pp. 419-432.

24. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases. ACM Sig-mod Record, ACM, 1996, vol. 25, no. 2, pp. 103-114.

25. Uppada S. K. Centroid based clustering algorithms-A clarion study. International Journal of Computer Science and Information Technologies, 2014, vol. 5, no. 6, pp. 73097313.

26. Shah H., Napanda K., D’mello L. Density based clustering algorithms. International Journal of Computer Sciences and Engineering, 2015, vol. 3, no. 11, pp. 54-57.

27. . Kerdels J., Peters G. A sparse representation of high-dimensional input spaces based on an augmented growing neural gas. GCAI, 2016, pp. 303-313.

28. Fritzke B. A growing neural gas network learns topologies. Proc. of the Conf. “Advances in neural information processing systems", 1995, pp. 625-632.

29. Martinetz T., Schulten K. Topology representing networks. Neural Networks, 1994, vol. 7, no. 3, pp. 507-522.

30. Kohonen T. Self-organized formation of topologically correct feature maps. Biological Cybernetics, 1982, vol. 43, no. 1, pp. 59-69.

31. Fiser D., Faigl J., Kulich M. Growing neural gas efficiently. Neurocomputing, 2013, vol. 104, pp. 72-82.

32. Fritzke B. Growing cell structures — a self-organizing network in k dimensions. Proc. of the 1992 Intern. Conf. on Artificial Neural Networks (IcAnN-92), Brighton, UK, 4-7 September, 1992, 1992, pp. 1051-1056.

33. Fritzke B. Growing grid — a self-organizing network with constant neighborhood range and adaptation strength. Neural Processing Letters, 1995, vol. 2, no. 5, pp. 9-13.

34. Ultsch A. Self organized feature maps for monitoring and knowledge aquisition of a chemical process. ICANN’93, Springer, London, 1993, pp. 864-867.

35. Kholod I., Kuprianov M., Petukhov I. Distributed data mining based on actors for internet of things. 5th Mediterranean Conf. on Embedded Computing (MECO), June 12-16, 2016, Bar, Montenegro, 2016, pp. 480-484. doi:10.1109/MECO.2016.7525698

36. Kholod I., Petuhov I., Malyshkin V. Creation of data mining algorithms as functional expression for parallel and distributed execution. Parallel Computing Technologies, LNCS, Springer, 2015, vol. 9251, pp. 62-68.

37. Kholod I., Kupriyanov M., Shorov A. Decomposition of data mining algorithms into unified functional blocks. Mathematical Problems in Engineering, 2016, vol. 2016, p. 11.


Дополнительные файлы

Для цитирования: Рукавицына А.Н. Кластеризация данных в распределенных системах мониторинга. Информационно-управляющие системы. 2019;(2):35-43. https://doi.org/10.31799/1684-8853-2019-2-35-43

For citation: Rukavitsyn A.N. Data clustering in distributed monitoring systems. Information and Control Systems. 2019;(2):35-43. (In Russ.) https://doi.org/10.31799/1684-8853-2019-2-35-43

Просмотров: 47


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)