Улучшение категорирования веб-сайтов для блокировки неприемлемого содержимого на основе анализа статистики HTML-тэгов


https://doi.org/10.15217/issn1684-8853.2016.6.65

Полный текст:


Аннотация

Постановка проблемы: постоянный рост объема доступной информации в сети Интернет приводит к повышению сложности обнаружения нежелательной и вредоносной информации. Существующие системы используют автоматическую классификацию по текстовому содержимому веб-сайтов, однако данный метод не подходит для веб-сайтов с изменчивым содержимым, таких как новости, форумы и т. п. Цель исследования: повысить защищенность пользователей от нежелательной информации за счет улучшения качества категорирования веб-сайтов методами Data Mining для автоматизированных систем родительского контроля. Результаты: разработаны улучшенные алгоритмы классификации веб-сайтов и прототип системы родительского контроля, который осуществляет классификацию веб-сайтов, используя их структурные особенности. Основная идея заключается в анализе не текстовых признаков, а статистики HTML-тэгов, которая представляет собой совокупность их частот встречаемости (отношение числа экземпляров данного тэга к общему количеству тэгов на странице, выраженного в процентах). Всего алгоритм выбирает 25 основных тэгов по всей выборке, после чего для каждого из сайтов считается его статистика. Приведена архитектура системы категорирования, состоящей из нескольких программных модулей, написанных на языке Perl, и специального программного обеспечения RapidMiner. Для разработанного прототипа проведены эксперименты на нескольких наборах данных, после чего выполнено сравнение качества категорирования при использовании текстовых, структурных признаков, а также их комбинации. Полученные результаты показали, что анализ статистики тэгов не может использоваться в качестве самостоятельного метода, но является полезным дополнением к системам, опирающимся на текстовую классификацию (позволяет повысить ее качество в метрике «аккуратность» от 6,9 до 10,6 % в зависимости от количества категорий). Практическая значимость: данный подход может применяться для повышения эффективности поиска информации, запрещенной законами Российской Федерации: пропаганды экстремизма; разжигания ненависти и вражды; пропаганды порнографии, наркотиков, антиобщественного поведения и т. д. Также данный подход может использоваться в системах родительского контроля для ограничения доступа к определенным видам информации по возрастным категориям.

Об авторах

Дмитрий Александрович Новожилов
Санкт-Петербургский институт информатики и автоматизации РАН; Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
Россия


Андрей Алексеевич Чечулин
Санкт-Петербургский институт информатики и автоматизации РАН
Россия


Игорь Витальевич Котенко
Санкт-Петербургский институт информатики и автоматизации РАН
Россия


Список литературы

1. Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features // Proc. of 10th European Conf. on Machine Learning (ECML-98), Chemnitz, Germany, April 21-23, 1998. P. 137-142

2. Ko Y., Seo J. Automatic Text Categorization by Unsupervised Learning // Proc. of the 18th Conf. on Computational Linguistics (Coling-2000). 2000. P. 453-459.

3. Ntoulas A., et al. Detecting Spam Web Pages through Content Analysis/ A. Ntoulas, M. Najork, M. Manasse, D. Fetterly // Proc. of the 15th Intern. World Wide Web Conf. (WWW-2006). 2006. P. 83-92.

4. Kehagias A., et al. A Comparison of Word- and Sense-based Text Categorization Using Several Classification Algorithms/ A. Kehagias, V. Petridis, V. G. Kaburlasos, P. Fragkou // Journal of Intelligent Information Systems. 2000. Vol. 21(3). P. 227-247.

5. Attardi G., Gulli A., Sebastiani F. Automatic Web Page Categorization by Link and Context Analysis // Proc. of 1st European Symp. on Telematics, Hypermedia and Artificial Intelligence (THAI-1999). 1999. P. 105-119.

6. Khonji M., Iraqi Y., Jones A. Enhancing Phishing E-Mail Classifiers: A Lexical URL Analysis Approach // Intern. Journal for Information Security Research. 2012. Iss. 6. P. 236-245.

7. Ma J., et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs/ J. Ma, L. K. Saul, S. Savage, G. M. Voelker // Proc. of Conf. on Knowledge Discovery and Data Mining. 2009. P. 1245-1254.

8. Kan M.-Y., Thi H. O. N. Fast Webpage Classification Using URL Features // Proc. of Conf. on Information and Knowledge Management. 2005. P. 325-326.

9. Geide M. N-gram Character Sequence Analysis of Benign vs. Malicious Domains/URLs. http://analy-sis-manifold.com/ngram_whitepaper.pdf (дата обращения: 24.03.2016).

10. Patil A. S., Pawar B. V. Automated Classification of Web Sites Using Naive Bayesian Algorithm // Proc. of the Intern. Multiconf. of Engineers and Computer Scientists. 2012. P. 466.

11. Riboni D. Feature Selection for Web Page Classification // Proc. of the Workshop on Web Content Mapping: A Challenge to ICT (EURASIA-ICT). 2002. P. 121-128.

12. Kotenko I., et al. Analysis and Evaluation of Web Pages Classification Techniques for Inappropriate Content Blocking/ I. Kotenko, A. Chechulin, A. Shorov, D. Komashinsky // Proc. of 14th Industrial Conf. on Data Mining (ICDM 2014). 2014. P. 39-54.

13. Meshkizadeh S., Masoud-Rahmani A. Webpage Classification Based on Compound of Using HTML Features & URL Features and Features of Sibling Pages // Intern. Journal of Advanced Computer Technology. 2010. Iss. 2(4). P. 36-46.

14. Novozhilov D., Kotenko I., Chechulin A. Improving the Categorization of Web Sites by Analysis of Html-Tags Statistics to Block Inappropriate Content // Proc. of the 9th Intern. Symp. on Intelligent Distributed Computing (IDC-2015), Guimaraes, Portugal, October 7-9, 2015. 2016. P. 257-263. doi:10.1007/978-3-319-25017-5_24

15. Kotenko I., Chechulin A., Komashinsky D. Evaluation of Text Classification Techniques for Inappropriate Web Content Blocking // Proc. of the IEEE 8th Intern. Conf. on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS-2015), Warsaw, Poland, Sept. 24-26, 2015. 2015. P. 412-417.

16. Котенко И. В., Чечулин А. А., Комашинский Д. В. Автоматизированное категорирование веб-сайтов для блокировки веб-страниц с неприемлемым содержимым // Проблемы информационной безопасности. Компьютерные системы. 2015. № 2. С. 69-79.

17. Комашинский Д. В., Котенко И. В., Чечулин А. А. Категорирование веб-сайтов для блокирования веб-страниц с неприемлемым содержимым // Системы высокой доступности. 2011. № 2. С. 102-106.

18. Комашинский Д. В. и др. Автоматизированная система категорирования веб-сайтов для блокирования веб-страниц с неприемлемым содержимым/ Д. В. Комашинский, И. В. Котенко, А. А. Чечулин, А. В. Шоров // Системы высокой доступности. 2013. № 3 (9). С. 119-127.

19. RapidMiner Operator Reference Guide. http://docs. rapidminer.com/studio/operators/ (дата обращения: 24.03.2016).

20. RapidMiner 5.3. http://rapidminer.com/ (дата обращения: 24.03.2016).

21. URLBlacklist. http://urlblacklist.com/ (дата обращения: 24.03.2016).

22. Shalla Secure Services KG. http://www.shallalist.de/ (дата обращения: 24.03.2016).


Дополнительные файлы

Для цитирования: Новожилов Д.А., Чечулин А.А., Котенко И.В. Улучшение категорирования веб-сайтов для блокировки неприемлемого содержимого на основе анализа статистики HTML-тэгов. Информационно-управляющие системы. 2016;(6):65-73. https://doi.org/10.15217/issn1684-8853.2016.6.65

For citation: Novozhilov D.A., Chechulin A.A., Kotenko I.V. Improving Website Categorization Based on HTML Tag Statistics for Blocking Unwanted Content. Information and Control Systems. 2016;(6):65-73. (In Russ.) https://doi.org/10.15217/issn1684-8853.2016.6.65

Просмотров: 46


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)