Classificação de Notícias Falsas na Língua Portuguesa Utilizando Modelos Baseados na Arquitetura Transformer

  • Lucas G. Pellegrini UFU
  • Fernanda M. C. Santos UFU
  • Felipe H. S. Cantarino UFU

Resumo


A rápida expansão do uso da internet e das redes sociais tem contribuído para a disseminação das chamadas “Fake News” (Notícias Falsas). As proporções que esse fenômeno tomou sugerem a existência de uma lacuna no combate à desinformação. Assim, este trabalho tem como objetivo empregar modelos de classificação baseados na arquitetura das redes neurais Transformer na tarefa de classificação de notícias falsas em textos escritos na língua Portuguesa. Para isso, três modelos distintos foram desenvolvidos: (1) Encoder-Only, (2) Decoder-Only e (3) Transformer (Encoder-Decoder); todos treinados sobre um mesmo conjunto de dados oriundo da união de dois corpora. Ademais, foram analisados alguns modelos pré-treinados e comparados seus resultados com os dos modelos propostos neste artigo. Em suma, todos os modelos Transformer desenvolvidos apresentaram desempenho superior, com destaque para o modelo Encoder-Only, que obteve valores de acurácia e precisão superiores a 96,7%.

Referências

Adalberto Ferreira Barbosa Junior (2024). distilbert-portuguese-cased (revision df1fa7a).

Cantarino, F. H. S. (2024). Criação de um corpus português para auxiliar a identificação de notícias verdadeiras e falsas. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) – Universidade Federal de Uberlândia.

Carmo, D., Piau, M., Campiotti, I., Nogueira, R., and Lotufo, R. (2020). Ptt5: Pretraining and validating the t5 model on brazilian portuguese data. arXiv preprint arXiv:2008.09144.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding.

G1 Fato ou Fake (2025). Fato ou fake o serviço de checagem de fatos do grupo globo. [link]. Acesso em: 7 jun. 2025.

Garrido-Merchan, E. C., Gozalo-Brizuela, R., and Gonzalez-Carvajal, S. (2023). Comparing bert against traditional machine learning models in text classification. Journal of Computational and Cognitive Engineering, 2(4):352–356.

IBGE (2023). Pesquisa nacional por amostra de domicílios contínua.

Khyani, D. and B S, S. (2021). An interpretation of lemmatization and stemming in natural language processing. Shanghai Ligong Daxue Xuebao/Journal of University of Shanghai for Science and Technology, 22:350–357.

Monteiro, R. A., Santos, R. L. S., Pardo, T. A. S., de Almeida, T. A., Ruiz, E. E. S., and Vale, O. A. (2018). Contributions to the study of fake news in portuguese: New corpus and automatic detection results. In Computational Processing of the Portuguese Language, pages 324–334. Springer International Publishing.

Narde, W., Mendanha, J., Barbosa, H., Coelho, F., Santos, B., and Torres, L. (2024). Classificação de notícias em português utilizando modelos baseados em transferência de aprendizagem e transformers. In Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 212–216, Porto Alegre, RS, Brasil. SBC.

Pires, V. and e Silva, D. G. (2024). Portuguese fake news classification with bert models. In Anais do XXI Encontro Nacional de Inteligência Artificial e Computacional, pages 834–845, Porto Alegre, RS, Brasil. SBC.

Poynter (2022). A global study on information literacy.

Radford, A., Narasimhan, K., Salimans, T., and Sutskever, I. (2018). Improving language understanding by generative pre-training.

Sanh, V., Debut, L., Chaumond, J., and Wolf, T. (2020). Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter.

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: pretrained BERT models for Brazilian Portuguese. In 9th Brazilian Conference on Intelligent Systems, BRACIS, Rio Grande do Sul, Brazil, October 20-23 (to appear).

Sun, C., Qiu, X., Xu, Y., and Huang, X. (2019). How to fine-tune bert for text classification? In Sun, M., Huang, X., Ji, H., Liu, Z., and Liu, Y., editors, Chinese Computational Linguistics, pages 194–206, Cham. Springer International Publishing.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Publicado
29/09/2025
PELLEGRINI, Lucas G.; SANTOS, Fernanda M. C.; CANTARINO, Felipe H. S.. Classificação de Notícias Falsas na Língua Portuguesa Utilizando Modelos Baseados na Arquitetura Transformer. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 549-556. DOI: https://doi.org/10.5753/stil.2025.37856.