Uso de modelagem de tópicos para agrupamento de notícias: uma abordagem usando BERTopic

Resumo


Hoje há uma grande quantidade de notícias em circulação nas mídias e agrupá-las por assuntos ou tópicos demanda muito tempo. Neste trabalho foi utilizada a técnica de modelagem de tópicos, por meio do BERTopic, para agrupar um conjunto de notícias sob tópicos que reflitam os assuntos delas. Foram utilizadas as headlines de um conjunto de notícias em inglês, de janeiro a setembro de 2022. A partir da modelagem de tópicos foram feitas análises e percebeu-se que o BERTopic tanto consegue representar os tópicos mais noticiados ao longo do ano, como também capturar eventos pontuais em um dado período do ano. A modelagem também se mostrou sensível a variações de contexto das notícias.

Palavras-chave: modelagem de tópicos, notícias, BERTopic

Referências

Amorim, A; Murrugarra-Llerena, N.; Silva, V.; Oliveira, D.; Paes, A. (2022). “Modelagem de Tópicos em Textos Curtos: uma Avaliação Experimental”. In: Anais do XXXVII Simpósio Brasileiro de Bancos de Dados. SBC, 2022. p. 254-266. https://doi.org/10.5753/sbbd.2022.224314 [link].

Angelov, D. (2020). Top2vec: Distributed representations of topics. arXiv preprint arXiv:2008.09470. https://doi.org/10.48550/arXiv.2008.09470 https://arxiv.org/abs/2008.09470

Arroyo-Vázquez, N. (2014). El content curator. Guía básica para el nuevo profesional de internet. Javier Guallar, Javier Leiva-Aguilera. Barcelona: Editorial UOC, 2013.(El profesional de la información: 24). ISBN 978-84-9064-018-0. Revista Española de Documentación Científica, v. 37, n. 2, p. e051-e051. [link].

Blei, D. M.; NG, A.Y.; Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, v. 3, n. Jan, p. 993-1022. [link].

Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv preprint arXiv:2203.05794. https://doi.org/10.48550/arXiv.2203.05794 https://arxiv.org/abs/2203.05794

Misra, R. (2022). News category dataset. arXiv preprint arXiv:2209.11429. https://doi.org/10.48550/arXiv.2209.11429 https://arxiv.org/abs/2209.11429
Publicado
25/09/2023
PEREIRA, Pedro Henrique; DA SILVA, Ticiana Linhares Coelho. Uso de modelagem de tópicos para agrupamento de notícias: uma abordagem usando BERTopic. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 398-402. DOI: https://doi.org/10.5753/stil.2023.234628.