Тематическая модель с бесконечным словарем


https://doi.org/10.15217/issn1684-8853.2016.6.43

Полный текст:


Аннотация

Постановка проблемы: в связи с постоянным ростом Интернета, увеличением количества новостей, сообщений в электронной почте, постов в блогах растет потребность в алгоритмах для автоматического анализа текстовых данных. Одним из перспективных направлений машинного обучения и анализа текстов на естественном языке являются алгоритмы тематического моделирования. Большинство методов тематического моделирования рассматривают данные в статичном виде, с конечным словарем, но на практике необходимы методы, позволяющие работать с пополняемым словарем. Каждый год появляются новые слова, какие-то слова выходят из обихода, поэтому вопрос пополнения словаря особенно актуален для онлайн тематических моделей. Цель: разработка подхода определения тематического вектора нового слова с использованием произведения Адамара тематических векторов документов, где это слово встретилось, который будет альтернативным подходу с использованием распределения Дирихле или процесса Дирихле. Результаты: исследования показали, что сумма векторов тем документов, где встретилось новое слово, дает неверное представление о тематической принадлежности нового слова. При этом для определения тематики нового слова по тематикам документов, где это слово встретилось, эффективнее использовать произведение Адамара. В результате перемножения векторов тем документов получаем тематический вектор нового слова с наибольшими значениями вероятностей у нескольких тематик, значение слабо выраженных тематик либо стремится к нулю, либо обнуляется. Практическая значимость: использование предложенного алгоритма позволяет бесконечно увеличивать словарь онлайн тематической модели, а следовательно, учитывать новые и старые слова.

Об авторе

Сергей Николаевич Карпович
Rambler&Co интернет холдинг
Россия


Список литературы

1. Hoffman T. Probabilistic Latent Semantic Indexing// Proc. of the Twenty-Second Annual Intern. SIGIR Conf. on Research and Development in Information Retrieval. АСМ. 1999. P. 50-57. doi:10.1145/ 312624.312649

2. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet Allocation// Journal of Machine Learning Research. MIT Press. Jan. 2003. Vol. 3. P. 993-1022.

3. Карпович С. Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей // Тр. СПИИРАН. 2015. Т. 2. № 39. С. 123-142. doi:10.15622/sp.39.8

4. Blei D. M., Lafferty J. D. Dynamic Topic Models// Proc. of the 23rd Intern. Conf. on Machine Learning. ACM. 2006. P. 113-120. doi:10.1145/ 1143844.1143859

5. Nallapati R. M. et al. Multiscale Topic Tomography / R. M. Nallapati, S. Ditmore, J. D. Lafferty, K. Ung // Proc. of the 13th ACM SIGKDD Intern. Conf. on Knowledge Discovery and Data Mining. ACM. 2007. P. 520-529. doi:10.1145/1281192.1281249

6. Wang C., Blei D., Heckerman D. Continuous Time Dynamic Topic Models: preprint arXiv:1206.3298.2012.

7. Hoffman M., Bach F. R., Blei D. M. Online Learning for Latent Dirichlet Allocation// Advances in Neural Information Processing Systems. 2010. Р. 856-864.

8. Zhai K., Boyd-Graber J. L. Online Latent Dirichlet Allocation with Infinite Vocabulary// ICML (1). 2013. Vol. 28. Р. 561-569.

9. Lau J. H., Collier N., Baldwin T. On-line Trend Analysis with Topic Models: # twitter Trends Detection Topic Model Online// COLING. 2012. Р. 1519-1534.

10. Карпович С. Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI // Тр. СПИИРАН. 2016. Т. 4. № 47. С. 92-104. doi:10.15622/sp.47.5

11. Horn R. A. The Hadamard Product// Proc. Symp. Appl. Math. 1990. Vol. 40. Р. 87-169.


Дополнительные файлы

Для цитирования: Карпович С.Н. Тематическая модель с бесконечным словарем. Информационно-управляющие системы. 2016;(6):43-49. https://doi.org/10.15217/issn1684-8853.2016.6.43

For citation: Karpovich S.N. Topic Model with an Infinite Vocabulary. Information and Control Systems. 2016;(6):43-49. (In Russ.) https://doi.org/10.15217/issn1684-8853.2016.6.43

Просмотров: 16


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)