Automatic Misinformation Detection About COVID-19 in Brazilian Portuguese WhatsApp Messages
Resumo
Durante a pandemia do coronavírus, o problema da desinformação voltou a surgir, de forma bastante intensa, nas redes sociais. No Brasil, uma das principais fontes de desinformação é o aplicativo de mensagens WhatsApp. No entanto, devido à natureza de mensagens privadas do WhatsApp, ainda existem poucos métodos de detecção de desinformação desenvolvidos especificamente para esta plataforma. Nesse contexto, a detecção automática de desinformação (MID) sobre o COVID-19 em mensagens do WhatsApp em português do Brasil torna-se um desafio crucial. Neste trabalho, apresentamos o COVID-19.BR, um conjunto de dados de mensagens do WhatsApp sobre coronavírus em português do Brasil, coletados de grupos públicos brasileiros e rotulados manualmente. Então, estamos investigando diferentes métodos de aprendizado de máquina para construir um MID eficiente para mensagens do WhatsApp. Até o momento, nosso melhor resultado foi de 0,774 na F1 devido ao predomínio de textos curtos. No entanto, quando textos com menos de 50 palavras são filtrados, a pontuação F1 sobe para 0,85.
Referências
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Elhadad, M. K., Li, K. F., and Gebali, F. (2020). Detecting misleading information on covid-19. IEEE Access, 8:165201–165215.
Garimella, K. and Tyson, G. (2018). Whatsapp, doc? a first look at whatsapp public group data. arXiv preprint arXiv:1804.01473.
Giachanou, A., Zhang, G., and Rosso, P. (2020). Multimodal multi-image fake news detection. In 2020 IEEE 7th International Conference on Data Science and Advanced Analytics (DSAA), pages 647–654.
Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8):1735–1780.
Kim, S.-B., Han, K.-S., Rim, H.-C., and Myaeng, S. H. (2006). Some effective techniques for naive bayes text classification. IEEE transactions on knowledge and data engineering, 18(11):1457–1466.
Kolluri, N. L. and Murthy, D. (2021). Coverifi: A covid-19 news verification system. Online Social Networks and Media, 22:100123.
Martins, A. D. F., Cabral, L., Chaves Mourão, P. J., Monteiro, J. M., and Machado, J. (2021). Detection of misinformation about covid-19 in brazilian portuguese whatsapp messages. In Metais, E., Meziane, F., Horacek, H., and Kapetanios, E., editors, Natural Language Processing and Information Systems, pages 199–206, Cham. Springer International Publishing.
Pranckevicius, T. and Marcinkevicius, V. (2017). Comparison of naive bayes, random forest, decision tree, support vector machines, and logistic regression classifiers for text reviews classification. Baltic Journal of Modern Computing, 5(2):221.
Prasetijo, A. B., Isnanto, R. R., Eridani, D., Soetrisno, Y. A. A., Arfan, M., and Sofwan, A. (2017). Hoax detection system on indonesian news sites based on text classification using svm and sgd. In 2017 4th International Conference on Information Technology, Computer, and Electrical Engineering (ICITACEE), pages 45–49. IEEE.
Rennie, J. D., Shih, L., Teevan, J., and Karger, D. R. (2003). Tackling the poor assumptions of naive bayes text classifiers. In Proceedings of the 20th international conference on machine learning (ICML-03), pages 616–623.
Resende, G., Messias, J., Silva, M., Almeida, J., Vasconcelos, M., and Benevenuto, F. (2018). A system for monitoring public political groups in whatsapp. In Proceedings of the 24th Brazilian Symposium on Multimedia and the Web, WebMedia ’18, page 387–390, New York, NY, USA. Association for Computing Machinery.
Su, Q., Wan, M., Liu, X., and Huang, C.-R. (2020). Motivations, methods and metrics of misinformation detection: An nlp perspective. Natural Language Processing Research, 1:1–13.
Waterloo, S. F., Baumgartner, S. E., Peter, J., and Valkenburg, P. M. (2018). Norms of online expressions of emotion: Comparing facebook, twitter, instagram, and whatsapp. new media & society, 20(5):1813–1831.