Avaliação de Abordagens Probabilísticas de Extração de Tópicos em Documentos Curtos

  • Michel Costa UFFS
  • Denio Duarte UFFS

Resumo


Devido ao amplo uso das redes sociais, textos pequenos se popularizaram na Web. Extrair tópicos de uma grande quantidade de textos curtos tornou-se uma tarefa crı́tica e desafiadora em tarefas de análise de conteúdo. Neste contexto, várias abordagens foram propostas para inferir tópicos a partir de conjuntos de coleções de textos curtos. Este trabalho tem como objetivo avaliar o uso de algumas destas abordagens probabilı́sticas na extração de tópicos em documentos curtos utilizando métricas para este fim. Os experimentos realizados em três coleções mostram que as abordagens estudadas tem resultados similares nos cenários propostos.

Palavras-chave: Modelagem de Tópicos, Textos Curtos, Benchmarking

Referências

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4).

Cheng, X., Yan, X., Lan, Y., and Guo, J. (2014). Btm: Topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering, 26(12):2928–2941.

Quan, X., Kit, C., Ge, Y., and Pan, S. J. (2015). Short and sparse text topic modeling via self-aggregation. In IJCAI, pages 2270–2276.

Röder, M., Both, A., and Hinneburg, A. (2015a). Exploring the space of topic coherence measures. In Proceedings of the eight International Conference on Web Search and Data Mining, Shanghai, February 2-6.

Röder, M., Both, A., and Hinneburg, A. (2015b). Exploring the space of topic coherence measures. In Proceedings of the eighth ACM international conference on Web search and data mining, pages 399–408. ACM.

Steyvers, M. and Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7):424–440.

Zuo, Y., Wu, J., Zhang, H., Lin, H., Wang, F., Xu, K., and Xiong, H. (2016a). Topic modeling of short texts: A pseudo-document view. In Proceedings of the 22nd ACM SIGKDD, pages 2105–2114. ACM.

Zuo, Y., Zhao, J., and Xu, K. (2016b). Word network topic model: a simple but general solution for short and imbalanced texts. Knowledge and Information Systems, 48(2):379–398.
Publicado
10/04/2019
COSTA, Michel; DUARTE, Denio. Avaliação de Abordagens Probabilísticas de Extração de Tópicos em Documentos Curtos. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 15. , 2019, Chapecó. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 51-60. ISSN 2595-413X. DOI: https://doi.org/10.5753/erbd.2019.8478.