Detecting Misinformation in Tweets Related to COVID-19

  • Ramon Souza da Cruz IFPI
  • Gilberto Nunes Neto IFPI
  • Rafael Torres Anchiêta IFPI

Resumo


A propagação de desinformação trouxe e ainda traz diversos problemas para a sociedade, sendo considerada uma infodemia pela Organização Mundial da Saúde (OMS). A grande maioria dos trabalhos desenvolvidos para lidar com desinformação são focados para a língua inglesa. A fim de preencher essa lacuna, este trabalho investiga estratégias baseadas em aprendizado de máquina supervisionado para detectar desinformação em tweets escritos na língua portuguesa. Além disso, criou-se um corpus que foi manualmente anotado para esta tarefa, a fim de avaliar as abordagens desenvolvidas e compará-las com trabalhos relacionados. Os resultados alcançados são competitivos com trabalhos correlatos, indicando que a abordagem produz um interessante baseline para o corpus construído.

Referências

Baeza-Yates, R. and Ribeiro-Neto, B. (2013). Recuperação de Informação-: Conceitos e Tecnologia das Máquinas de Busca. Bookman Editora.

Brodersen, K. H., Ong, C. S., Stephan, K. E., and Buhmann, J. M. (2010). The Balanced Accuracy and Its Posterior Distribution. In Proceedings of the 20th International Conference on Pattern Recognition, pages 3121–3124, Istanbul, Turkey. IEEE.

Cabral, L., Monteiro, J. M., da Silva, J. W. F., Mattos, C. L., and Mourao, P. J. C. (2021). FakeWhastApp.BR: NLP and Machine Learning Techniques for Misinformation Detection in Brazilian Portuguese Whatsapp Messages. In Proceedings of the 23rd International Conference on Enterprise Information Systems, pages 63–74, Online. SCITEPRESS.

Faustini, P. and Covões, T. (2019). Fake news detection using one-class classification. In Proceedings of the 8th Brazilian Conference on Intelligent Systems, pages 592–597, Salvador, Brazil. IEEE.

Gritz, R., Pereira, R., Silva, H. M., Zatti, H., Viana, L., Navarro, K., Dias, T., Oliveira, V., Souza, R., Oliveira, V., Netto, M. B., and Porto, F. (2021). An ontology based natural In Anais do XV Brazilian language processing pipeline for brazilian covid-19 emr. e-Science Workshop, pages 97–104, Evento Online. SBC.

Himelein-Wachowiak, M., Giorgi, S., Devoto, A., Rahman, M., Ungar, L., Schwartz, H. A., Epstein, D. H., Leggio, L., Curtis, B., et al. (2021). Bots and misinformation spread on social media: Implications for covid-19. Journal of Medical Internet Research, 23(5):e26933.

Islam, M. S., Sarkar, T., Khan, S. H., Kamal, A.-H. M., Hasan, S. M., Kabir, A., Yeasmin, D., Islam, M. A., Chowdhury, K. I. A., Anwar, K. S., et al. (2020). Covid-19–related infodemic and its impact on public health: A global social media analysis. The American journal of tropical medicine and hygiene, 103(4):1621.

James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An introduction to statistical learning, volume 112. Springer.

Lazer, D. M., Baum, M. A., Benkler, Y., Berinsky, A. J., Greenhill, K. M., Menczer, F., Metzger, M. J., Nyhan, B., Pennycook, G., Rothschild, D., et al. (2018). The science of fake news. Science, 359(6380):1094–1096.

Le, Q. and Mikolov, T. (2014). Distributed representations of sentences and documents. In Proceedings of the 31st International Conference on Machine Learning, pages 1188– 1196, Beijin, China. PMLR.

Monteiro, R. A., Santos, R. L., Pardo, T. A., De Almeida, T. A., Ruiz, E. E., and Vale, O. A. (2018). Contributions to the study of fake news in portuguese: New corpus and automatic detection results. In Proceedings of the 13th International Conference on Computational Processing of the Portuguese Language, pages 324–334, Canela, Brazil. Springer.

Orengo, V. M. and Huyck, C. R. (2001). A stemming algorithmm for the portuguese language. In Proceedings of the Eighth International Symposium on String Processing and Information Retrieval, pages 186–193, Laguna de San Rafael, Chile. IEEE.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

Pierri, F., Piccardi, C., and Ceri, S. (2020). Topology comparison of twitter diffusion networks effectively reveals misleading information. Scientific reports, 10(1):1–9.

Rajaraman, A. and Ullman, J. D. (2011). Mining of massive datasets. Cambridge University Press.

Roozenbeek, J., Schneider, C. R., Dryhurst, S., Kerr, J., Freeman, A. L., Recchia, G., Van Der Bles, A. M., and Van Der Linden, S. (2020). Susceptibility to misinformation about covid-19 around the world. Royal Society open science, 7(10):201199.

Spoorthy, M. S., Pratapa, S. K., and Mahant, S. (2020). Mental health problems faced by healthcare workers due to the covid-19 pandemic–a review. Asian journal of psychiatry, 51:102119.

Vosoughi, S., Roy, D., and Aral, S. (2018). The spread of true and false news online. Science, 359(6380):1146–1151.

Zhou, X. and Zafarani, R. (2020). A survey of fake news: Fundamental theories, detection methods, and opportunities. ACM Computing Surveys (CSUR), 53(5):1–40.

Zubiaga, A., Aker, A., Bontcheva, K., Liakata, M., and Procter, R. (2018). Detection and resolution of rumours in social media: A survey. ACM Computing Surveys (CSUR), 51(2):1–36.
Publicado
29/11/2021
CRUZ, Ramon Souza da; NUNES NETO, Gilberto; ANCHIÊTA, Rafael Torres. Detecting Misinformation in Tweets Related to COVID-19. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 18. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 280-289. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2021.18260.