ALTES: uma Ferramenta de Rotulação Automática de Tópicos por meio de Fontes Externas

Annie Amorim; Nils Murrugarra-Llerena; Vítor Silva; Daniel de Oliveira; Aline Paes

doi:10.5753/sbbd_estendido.2023.233252

Annie Amorim Universidade Federal Fluminense
Nils Murrugarra-Llerena Weber State University
Vítor Silva Universidade Federal do Rio de Janeiro
Daniel de Oliveira Universidade Federal Fluminense
Aline Paes Universidade Federal Fluminense

DOI: https://doi.org/10.5753/sbbd_estendido.2023.233252

Resumo

Interpretar o conteúdo de uma grande quantidade de documentos é um desafio. A modelagem de tópicos é uma técnica não-supervisionada de Aprendizado de Máquina que apoia essa interpretação por meio do agrupamento de palavras relacionadas a um mesmo assunto em conjuntos de documentos. No entanto, a interpretação dos tópicos gerados pode ser complexa, uma vez que o contexto semântico que as une pode não estar evidente. Para enfrentar esse desafio, o artigo apresenta a ferramenta ALTES, que apoia a interpretação dos tópicos gerados pela técnica de modelagem de tópicos por meio da rotulação com dados de fontes externas. A ALTES encontra palavras relacionadas aos termos que compõem os tópicos e estabelece associações entre ideias ou conceitos não evidentes inicialmente nos tópicos identificados.

Palavras-chave: Modelagem de tópicos

Referências

Allahyari, M., Pouriyeh, S., Kochut, K. J., and Arabnia, H. R. (2017). A knowledge-based topic modeling approach for automatic topic labeling. International Journal of Advanced Computer Science and Applications, 8:335–349.

Amorim, A., Murrugarra-Llerena, N., Silva, V., de Oliveira, D., and Paes, A. (2022). Modelagem de tópicos em textos curtos: uma avaliação experimental. In SBBD, pages 254– 266.

Baratieri, T., Lentsck, M. H., Peres, C. K., and de Brito Pitilin, É. (2021). Modelagem de tópicos de pesquisa sobre o novo coronavírus: aplicação do latent dirichlet allocation. Ciência, Cuidado e Saúde.

Bhatia, S., Lau, J. H., and Baldwin, T. (2016). Automatic labeling of topics with neural embeddings. CoRR, abs/1612.05340.

Blei, D., Carin, L., and Dunson, D. (2010). Probabilistic topic models. IEEE Signal Processing Magazine, 27(6):55–65.

Kozbagarov, O., Mussabayev, R., and Mladenovic, N. (2021). A new sentence-based interpretative topic modeling and automatic topic labeling. Symmetry, 13:837.

Lau, J. H., Grieser, K., Newman, D., and Baldwin, T. (2011). Automatic labeling of topic models. In Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies, pages 1536–1545, Portland, Oregon, USA.

Praveen, SV e Vajrobol, V. (2023). O chatgpt pode ser confiável para consultoria? Desvendando as percepções do médico usando técnicas de aprendizagem profunda. Anais de Engenharia Biomédica, pages 1–4.