Modelagem Probabilística de Tópicos: Uma Comparação Empírica

  • Leonardo H. Rocha UFFS
  • Daniel Welter UFFS
  • Denio Duarte UFFS

Resumo


Abordagens probabilísticas de tópicos são ferramentas para descobrir e explorar estruturas temáticas escondidas em coleções de textos. Dada uma coleção de documentos, a tarefa de extrair os tópicos consiste em criar um vocabulário a partir da coleção, verificar a probabilidade de cada palavra pertencer a um documento da coleção. Em seguida, baseado no número de tópicos desejado, a probabilidade de cada palavra estar associada a um determinado tópico é contabilizada. Assim, um tópico é um conjunto de palavras ordenadas pela probabilidade de estar associada ao tópico. Várias abordagens são encontradas na literatura para criação de modelos de tópicos, e.g., Hierarchical Dirichlet Process (HDP), Latent Dirichlet Allocation (LDA), Non-Negative Matrix Factorization (NMF) e Dirichlet-multinomial Regression (DMR). Este trabalho procura identificar a qualidade dos tópicos construídos pelas quatro abordagens citadas. A Qualidade será medida por métricas de coerência e todas as abordagens terão a mesma coleção de documentos como entrada: notícias de websites dos jornais Breibart, Business Insider, The Atlantic, CNN e New York Times contendo 50.000 artigos. Os resultados mostram que DMR e LDA são os melhores modelos para extrair tópicos da coleção utilizada.

Referências

Agade, A. and Balpande, S. (2020). Exploring the non-medical impacts of covid-19 using natural language processing. In Preprints 2020110056. Preprints Plataform.

Blei, D. M. (2012). Probabilistic topic models. Commun. ACM, 55(4):77–84.

Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan):993–1022.

Chang, J., Gerrish, S., Wang, C., Boyd-Graber, J. L., and Blei, D. M. (2009). Reading tea leaves: How humans interpret topic models. In Proceedings of the Twenty-third Advances in neural information processing systems, pages 288–296.

Chehal, D., Gupta, P., and Gulati, P. (2021). Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations. Journal of Ambient Intelligence and Humanized Computing, 12(5):5055–5070.

Duarte, D. and Stahl, N. (2019). Machine learning: a concise overview. In Said, A. and Torra, V., editors, Data Science in Practice, pages 27–58. Springer.

Lau, J. H., Newman, D., and Baldwin, T. (2014). Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 530–539.

Mifrah, S. and Benlahmar, E. (2020). Topic modeling coherence: A comparative study between lda and nmf models using covid’19 corpus. Int. J. Adv. Trends Comput. Sci. Eng, 9:5756–5761.

Mimno, D. and McCallum, A. (2008). Topic models conditioned on arbitrary features with dirichlet-multinomial regression. In UAI, UAI’08, page 411–418, Arlington, Virginia, USA. AUAI Press.

Röder, M., Both, A., and Hinneburg, A. (2015). Exploring the space of topic coherence measures. In Proceedings of the Eighth ACM International Conference on Web Search and Data Mining, pages 399–408, USA. Association for Computing Machinery.

Steyvers, M. and Griffiths, T. (2007). Probabilistic topic models. In Landauer, T. K., McNamara, D. S., Dennis, S., and Kintsch, W., editors, Handbook of latent semantic analysis, chapter 21, pages 424–440. Laurence Erlbaum Associates.

Teh, Y. W., Jordan, M. I., Beal, M. J., and Blei, D. M. (2006). Hierarchical dirichlet processes. Journal of the american statistical association, 101(476):1566–1581.

Williams, T. and Betak, J. (2018). A comparison of lsa and lda for the analysis of railroad accident text. Procedia computer science, 130:98–102.
Publicado
13/09/2021
ROCHA, Leonardo H.; WELTER, Daniel; DUARTE, Denio. Modelagem Probabilística de Tópicos: Uma Comparação Empírica. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 16. , 2021, Santa Maria. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 41-50. ISSN 2595-413X. DOI: https://doi.org/10.5753/erbd.2021.17237.