Classificação de Notícias em Português Utilizando Modelos Baseados em Transferência de Aprendizagem e Transformers

Resumo


Fake news se espalha mais rápido em algumas redes sociais do que notícias regulares, o que pode ter diferentes consequências, desde influências nos resultados eleitorais até mortes devido a tratamentos incorretos de doenças. Este trabalho tem como objetivo empregar métodos baseados em aprendizado por transferência e modelos de aprendizado de máquina baseados em Transformers para classificar a veracidade de tweets na língua portuguesa (Brasil pt-BR). Para isso, foi criada uma base de dados confiável e rotulada, aberta para acesso gratuito. O conjunto de dados relaciona postagens extraídas do X (anteriormente conhecido como Twitter) e sua proximidade com fatos ou informações falsas. Subsequentemente, cinco modelos Transformer foram treinados em português. O modelo BERT ajustado, inicializado com pré-treinamento em textos em português, alcançou um desempenho superior, obtendo uma acurácia de 95.1%.

Palavras-chave: Transformers, Classificação, Bert, Aprendizado Supervisionado, Notícias Falsas

Referências

Clark, K., Luong, M.-T., Le, Q. V., and Manning, C. D. (2020). ELECTRA: Pre-training text encoders as discriminators rather than generators. In ICLR. DOI: 10.48550/arXiv.2003.10555

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V.,Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. Association for Computational Linguistics. DOI: 10.48550/arXiv.1911.02116

Data, P. (2024). Global social media users in 2024. [link]

DataReportal (2024). Social media users 2024 (global data & statistics). [link]

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics. DOI: 10.48550/arXiv.1810.04805

Gente, G. (2024). Pandemia e o consumo de notícias nas redes sociais. [link]

Henrique, J. (2018). Get old tweets programatically. Repository on GitHub. [link]

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. DOI: 10.48550/arXiv.1907.11692

NegociosSC (2024). O uso da internet, redes sociais e mídia no brasil em 2024. [link]

Reis, J. C. S., Correia, A., Murai, F., Veloso, A., and Benevenuto, F. (2019). Supervised learning for fake news detection. IEEE Intelligent Systems, 34(2):76–81. DOI: 10.1109/MIS.2019.2899143

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: pretrained BERT models for Brazilian Portuguese. In 9th Brazilian Conference on Intelligent Systems, BRACIS, Rio Grande do Sul, Brazil, October 20-23 (to appear). DOI: 10.1007/978-3-030-61377-8_28

Vargas, F., Benevenuto, F., and Pardo, T. (2021). Toward discourseaware models for multilingual fake news detection. In Proceedings of the Student Research Workshop Associated with RANLP 2021, pages 210–218. DOI: 10.26615/issn.2603-2821.2021_029
Publicado
17/11/2024
NARDE, Wagner; MENDANHA, João; BARBOSA, Henrique; COELHO, Frederico; SANTOS, Bruno; TORRES, Luiz. Classificação de Notícias em Português Utilizando Modelos Baseados em Transferência de Aprendizagem e Transformers. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 212-216. DOI: https://doi.org/10.5753/stil.2024.245423.