Anotação de Dados para a Mineração de Argumentos em Conteúdos de Redes Sociais em Português Brasileiro

  • Livia Alabarse dos Santos UPM
  • Vitor Domingos Baldoino dos Santos UPM
  • Renata Mendes de Araujo UPM / USP / ENAP
  • Ivan Carlos Alcântara de Oliveira UPM

Resumo


Este artigo apresenta os avanços obtidos no escopo do projeto de pesquisa HEIWA em relação ao processo de anotação de uma base de dados de tweets em português brasileiro extraídos ao longo do período eleitoral brasileiro em 2022, um dos mais polarizados da história política do Brasil. A anotação teve como objetivo preparar um recorte da base de dados para o treinamento de modelos de aprendizagem de máquina para a mineração de argumentos em conteúdos de redes sociais. O artigo descreve as estratégias de recorte da base de dados, as etapas de anotação humana e híbrida usando LLMs, os resultados obtidos e os desafios encontrados.

Referências

Arruda, G. D., Roman, N. T. e Monteiro, A. M. (2015). “An Annotated Corpus for Sentiment Analysis in Political News”. Em: Proc. of the 10th Brazilian Symposium in Information and Human Language Technology. Natal/RN. SBC. pp. 101-110.

Bertanha, M. C.; Araujo, R. M. (2024). “Linha do Tempo Eleições Presidenciais 2022: evolução da rede social Twitter durante o 8 de janeiro de 2023”. In: Trilha de Temas, Ideias e Resultados Emergentes em Sistemas de Informação - Simpósio Brasileiro de Sistemas de Informação. Juiz de Fora/MG. SBC. pp. 339-344.

Bosc, T., Cabrio, E. e Villata, S. (2016). “Tweeties Squabbling: Positive and Negative Results in Applying Argument Mining on Social Media”. Frontiers in Artificial Intelligence and Applications, v. 287. pp. 21–32.

Bosc, Tom, Cabrio, E. e Villata, S. (2016a). “DART: a Dataset of Arguments and their Relations on Twitter” Em: Proceedings of the 10th edition of the Language Resources and Evaluation Conference. Portoroz, Slovenia. pp.1258-1263.

Cohen, J. (1960). “A coefficient of agreement for nominal scales”. Educational and Psychological Measurement, v. 20, n. 1. pp. 37-46.

Coutinho, V. M. de M. S., e Malheiros, Y. (2020). "Detecção de Mensagens Homofóbicas em Português no Twitter usando Análise de Sentimentos". Em: Anais do IX Brazilian Workshop on Social Network Analysis and Mining. SBC. pp. 1-12.

Demszky, D., Movshovitz-Attias, D., Ko, J., Cowen, A.S., Nemade, G., & Ravi, S. (2020) “GoEmotions: A Dataset of Fine-Grained Emotions”. arXiv. arXiv:abs/2005.00547.

Fleiss, J. L. (1971). “Measuring nominal scale agreement among many raters”. Psychological Bulletin, v. 76, n. 5. pp. 378-382.

Landis, J. R.; Koch, G. G. (1977) The measurement of observer agreement for categorical data. Biometrics, v. 33, n. 1. pp. 159-174.

Lawrence, J., Bex, F., Reed, C. e Snaith, M. (2012) “AIFdb: Infrastructure for the Argument Web.” Em: Proceedings of the 6th International Conference on Computational Models of Argument. IOS Press. pp. 515-516.

Lawrence, J. e Reed, C. (2020) “Argument mining: A survey”. Computational Linguistics, v. 45(4), pp. 765-818.

Lytos, A., Lagkas, T., Sarigiannidis, P., Bontcheva, K. (2019). “The evolution of argumentation mining: From models to social media and emerging tools”. Em: Information Processing & Management, v. 56 (6).

Maia. D. F. (2024). “Detecção de Posicionamento do Cidadão em Projetos de Lei”. Dissertação de Mestrado. Programa de Pós-Graduação em Ciência da Computação, Instituto de Informática, Universidade Federal de Goiás, Goiânia.

Meta AI. (2024, abril 18). "Introducing Meta Llama 3: The most capable openly available LLM to date". [link]

Moraes, S. M. W., Manssour, I. H., e Silveira, M. S. (2015). “7x1-PT: um Corpus extraído do Twitter para Análise de Sentimentos em Língua Portuguesa”. Em: Proceedings of the 10th Brazilian Symposium in Information and Human Language Technology, Natal/RN. SBC. pp 21–25.

Nakayama, H., Kubo, T., Kamura, J., Taniguchi, Y., Liang, X. (2018). “doccano: Text annotation tool for human”. [link].

Neto, Francisco A. R., Anchiêta, R. T., Moura, R. S., Santana, A. M. (2024). “Abordagem Semi-Supervisionada para Anotação de Linguagem Tóxica”. Em: Anais do XIII Brazilian Workshop on Social Network Analysis and Mining. SBC. pp. 116-129.

Palau, R. M. e Moens, M. F. (2009). “Argumentation mining: the detection, classification and structure of arguments in text”. Em: Proceedings of the 12th International Conference on Artificial Intelligence and Law. pp. 98-107.

Salles, G. T., Coelho, O. B. (2022). “Reconhecimento de Emoções em Mineração de Argumentos com Deep Learning”. Trabalho de Conclusão de Curso. Universidade Presbiteriana Mackenzie.

Schaefer, R. e Stede, M. (2021). “Argument Mining on Twitter: A survey”. Information Technology, v. 63, n. 1. pp. 45–58.

Santos, V. B., Santos, L. A., Coelho, O. B., Araujo, R. M., Oliveira, I. C. A. (2024a). “Mineração de Argumentos em Textos de Redes Sociais no Idioma Português”. Em: Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC. pp. 306-316.

Santos, L. A., Araujo, R. M., Silva, L. J., Correa, A. G. D., Coelho, O. B., Oliveira, I. C. A. (2024b). “Tweet_Eleições_2022: Um dataset de tweets durante as eleições presidenciais brasileiras de 2022” [Data set]. Zenodo. DOI: 10.5281/zenodo.11206577.

Silva, L. J., Araujo, R. M., Correa, A. G. D. (2024) “Pipeline para monitoramento de discussões políticas no Twitter: estudo de caso com o evento político de 8 de janeiro de 2023”. In: Em: Anais do XIII Brazilian Workshop on Social Network Analysis and Mining. pp. 35-46.

Silva, L. J., Santos, L. A., Araujo, R. M., Coelho, O. B., Correa, A. G. D., Oliveira, I. C. A. (2024). “Tweet_Eleições_2022: Um dataset de tweets durante as eleições presidenciais brasileiras de 2022”. Em: Anais do XIII Brazilian Workshop on Social Network Analysis and Mining. SBC. pp. 193-199.

Sousa, J.P.S., Nascimento, R. C. U., Araujo, R. M., Coelho, O. B. (2021). “Não se perca no debate! Mineração de Argumentação em Redes Sociais”. Brazilian Workshop on Social Network Analysis and Mining. SBC. pp. 139-150.

Stede, M. e Schneider, J. (2019). “Argumentation Mining”. Springer. Synthesis Lectures on Human Language Technologies.

Tokuda, N. H., Coelho, O. B., Araujo, R.M. (2021). “Análise de Sentimento por meio de Deep Learning aplicada à Mineração de Argumentos”. Trabalho de Conclusão de Curso. Universidade Presbiteriana Mackenzie.

Törnberg, P. (2024). Best practices for text annotation with large language models. arXiv preprint arXiv:2402.05129.

Vecchi, E. M., Falk, N., Jundi, I., Lapesa, G. (2021). “Towards Argument Mining for Social Good: A Survey”. Em: Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int. Joint Conf. on Natural Language Processing. .Online. Association for Computational Linguistics. pp. 1338–1352.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, T. e Polosukhin, I. (2017). “Attention is All you Need”. Em: Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.

Walker, M. A., Tree, J. E. F., Anand, P., Abbott, R. e King, J. (2012). “A Corpus for Research on Deliberation and Debate”. Em: Proc. of the 8th Int. Conference on Language Resources and Evaluation. v. 12. Istanbul, Turkey. pp. 812–817.

Zhang, T., Wu, F., Katiyar, A., Weinberger, K. Q., & Artzi, Y. (2020) “Revisiting few-sample BERT fine-tuning”. arXiv preprint arXiv:2006.05987.
Publicado
20/07/2025
SANTOS, Livia Alabarse dos; SANTOS, Vitor Domingos Baldoino dos; ARAUJO, Renata Mendes de; OLIVEIRA, Ivan Carlos Alcântara de. Anotação de Dados para a Mineração de Argumentos em Conteúdos de Redes Sociais em Português Brasileiro. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 14. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 65-78. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2025.8602.