Tweets8JanSPI: Uma Base de Dados para Treinamento de Modelos de Mineração de Argumentos em Redes Sociais

  • Livia Alabarse dos Santos UPM
  • Pedro Henrique Araujo Farias UPM
  • Guilherme de Abreu Schulz UPM
  • Renata Araujo UPM

Resumo


Este trabalho apresenta a criação de uma base de dados anotada com tweets relacionados à invasão à sede dos Três Poderes da República em Brasília em 2023, com foco na tarefa de mineração de argumentos. O estudo descreve o processo de anotação manual voltado para três categorias: ironia, posicionamento e sentimento, fundamentado em um manual de anotação desenvolvido especificamente para o contexto deste projeto. O dataset com 2935 tweets rotulados foi posteriormente submetido a uma análise de concordância entre anotadores, tornando possível identificar o alto grau de dificuldade de atividades relacionadas à linguagem natural, essenciais para a compreensão de discussões e a mineração de argumentos em redes sociais.

Referências

Artstein, R. e Poesio, M. (2008) "Inter-Coder Agreement for Computational Linguistics". Computational Linguistics, v. 34, n. 4, p. 555–596.

Bertanha, M. C. e Araujo, R. M. (2024) "Linha do Tempo Eleições Presidenciais 2022: evolução da rede social Twitter durante o 8 de janeiro de 2023". Em Trilha de Temas, Ideias e Resultados Emergentes em Sistemas de Informação – Simpósio Brasileiro de Sistemas de Informação, p. 339-344. Juiz de Fora/MG. SBC.

Bosc, T.; Cabrio, E. e Villata, S. (2016) "DART: a Dataset of Arguments and their Relations on Twitter". Em Proceedings of the Tenth International Conference on Language Resources and Evaluation, p. 1258–1263. European Language Resources Association (ELRA).

Cui, X. (2026) "Addressing Data Imbalance in Transformer-Based Multi-Label Emotion Detection with Weighted Loss". arXiv preprint arXiv:2507.11384.

Fuchs, S. et al. (2026) "Human vs. Automated data annotation: Labeling the data set for an ML-driven support ticket classifier". Data & Knowledge Engineering, 162.

Hovy, E. e Lavid, J. (2010) "Towards a ‘Science’ of Corpus Annotation: A New Methodological Challenge for Corpus Linguistics". International Journal of Translation, v. 22, n.1, p. 13–36.

Krippendorff, K. (2019) Content Analysis: An Introduction to Its Methodology. Sage Publishing.

Lima Filho, S. et al. (2024) "DepressSet: Um conjunto de dados de análises textuais sobre postagens depressivas". Em Brazilian Workshop On Social Network Analysis And Mining (BRASNAM), 13., p. 214–220. SBC.

Nakayama, H. et al. (2018) "Doccano: text annotation tool for human".

Pustejovsky, J. e Stubbs, A. (2012) Natural Language Annotation for Machine Learning: A Guide to Corpus-Building for Applications. O'Reilly Media.

Santos, D. K. S. e Berton, L. (2023) "Analysis of Twitter users' sentiments about the first round 2022 presidential election in Brazil". Em Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), 20., p. 880–893. SBC.

Santos, L. A. et al. (2025) "Anotação de Dados para a Mineração de Argumentos em Conteúdos de Redes Sociais em Português Brasileiro". Em Brazilian Workshop On Social Network Analysis And Mining (BRASNAM), 14., p. 65–78. SBC.

Silva, L. J. et al. (2024) "Tweet_Eleições_2022: Um dataset de tweets durante as eleições presidenciais brasileiras de 2022". Em Brazilian Workshop On Social Network Analysis And Mining (BRASNAM), 13., p. 193–199. SBC.

Stede, M. e Schneider, J. (2022) Argumentation Mining. Springer Nature.

Suguna, R. et al. (2025) "Mitigating class imbalance in churn prediction with ensemble methods and SMOTE". Scientific Reports, 15, n. 16256.

Warrens, M. J. (2010) "Inequalities between multi-rater kappa". Advances in Data Analysis and Classification, v. 4, p. 271–286.
Publicado
19/07/2026
SANTOS, Livia Alabarse dos; FARIAS, Pedro Henrique Araujo; SCHULZ, Guilherme de Abreu; ARAUJO, Renata. Tweets8JanSPI: Uma Base de Dados para Treinamento de Modelos de Mineração de Argumentos em Redes Sociais. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 15. , 2026, Gramado/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 284-290. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2026.21322.