Detecção de Fake News em Português: Análise Comparativa entre Métodos de Representação em Português, Inglês e Multilíngues

  • Camila B. Vieira UFPE
  • José Vinicius de S. Souza UFPE
  • George D. C. Cavalcanti UFPE

Resumo


Este estudo investiga a eficácia de diferentes métodos de representação textual na detecção de fake news em português. Foram avaliados modelos treinados em português, inglês e multilíngues, utilizando classificadores MLP, RFC e SVC no conjunto balanceado FAKE.BR CORPUS. Também analisamos a instance hardness para mensurar a dificuldade de classificação das instâncias. Os resultados mostram que, entre os modelos em português, apenas o BERTimbau apresentou desempenho expressivo. Apesar do maior custo computacional, os modelos multilíngues revelaram vantagens, enquanto os treinados em inglês tiveram desempenho competitivo, mas inferior. O código-fonte está disponível no repositório https://github.com/camilab-vieira/compare-embeddings.git.

Referências

Almeida, R., Campos, R., Jorge, A., and Nunes, S. (2024). Indexing portuguese nlp resources with pt-pump-up. In International Conference on Computational Processing of Portuguese.

Bahmani, M., El Shawi, R., Potikyan, N., and Sakr, S. (2025). To tune or not to tune? an approach for recommending important hyperparameters for classification and clustering algorithms. Future Generation Computer Systems, 163:107524.

Braz, R. R. and Digiampietri, L. A. (2024). Detecção de fake news em domínios cruzados: Uma revisão sistemática. In Brazilian Workshop on Social Network Analysis and Mining.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. (2020). Unsupervised cross-lingual re presentation learning at scale. In Annual Meeting of the Association for Computational Linguistics.

Corrêa, N. K., Falk, S., Fatimah, S., Sen, A., and De Oliveira, N. (2024a). Teenytinyllama: Open-source tiny language models trained in brazilian portuguese. Machine Learning with Applications, 16:100558.

Corrêa, N. K., Sen, A., Falk, S., and Fatimah, S. (2024b). Tucano: Advancing neural text generation for portuguese. arXiv. License: CC BY-NC-SA 4.0.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171–4186.

Diego N. E. Silva (2019). Automating the Fact-Checking Task: Challenges and Directions. PhD thesis, Rheinische Friedrich-Wilhelms-Universität Bonn.

Eiseler, V. (2019). Redações devem adotar fact checking automatizado, escuta o público do isoj. LatAm Journalism Review by the Knight Center.

Farhangian, F., Cruz, R. M. O., and Cavalcanti, G. D. C. (2024). Fake news detection: Taxonomy and comparative study. Information Fusion, 103:102140.

Graciano Neto, V. V., Barbosa, J. R., Lima, E. A. d., Carvalho, S. T. d., and Venzi, S. (2024). A blockchain-based and ai-endorsed mechanism to support social networks on fake news containment. In Brazilian Workshop on Social Network Analysis and Mining.

Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., and Zettlemoyer, L. (2019). Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv.

Liu, Y. and Lapata, M. (2020). mBART: Multilingual denoising pre-training for neural machine translation. In Annual Meeting of the Association for Computational Linguistics, pages 7871–7880.

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in python. Journal of Machine Learning Research, 12:2825–2830.

Pennington, J., Socher, R., and Manning, C. D. (2014). Glove: Global vectors for word representation. In Conference on Empirical Methods in Natural Language Processing, pages 1532–1543.

Pires, V. B. and e Silva, D. G. (2024). Portuguese fake news classification with bert models. In Encontro Nacional de Inteligência Artificial e Computacional.

Reis, J. C. S. and Benevenuto, F. (2022). Detecção automática de desinformação em diferentes cenários: Eleições nos estados unidos e no brasil. In Brazilian Workshop on Social Network Analysis and Mining.

Santos, R. L. S., Monteiro, R. A., and Pardo, T. A. S. (2018). The fake.br corpus - a corpus of fake news for brazilian portuguese. In International Conference on Computational Linguistics.

Smith, M. R. (2009). An Empirical Study of Instance Hardness. PhD thesis, Brigham Young University.

Sousa, F., Barbosa, A., Oliveira, C., and Braga, R. (2022). Detecção de fake news em língua portuguesa combinando redes neurais convolucionais e algoritmos de aprendizagem de máquina. In Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos.

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: Pretrained bert models for brazilian portuguese. In Intelligent Systems, pages 403–417.

Vicentini, J. (2023). Comparando técnicas de explicabilidade sobre modelos de linguagem: um estudo de caso na detecção de notícias falsas. Universidade Estadual Paulista.

World Economic Forum (2024). Global risks report 2024.
Publicado
20/07/2025
VIEIRA, Camila B.; SOUZA, José Vinicius de S.; CAVALCANTI, George D. C.. Detecção de Fake News em Português: Análise Comparativa entre Métodos de Representação em Português, Inglês e Multilíngues. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 14. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 187-199. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2025.9062.