Estudo do Impacto de Dados Sintéticos e Paráfrases na Mitigação do Desbalanceamento em Tarefas de Classificação de Textos em Português com Baixa Amostragem

  • Claudio M. V. de Andrade Universidade Federal de Minas Gerais (UFMG) http://orcid.org/0000-0002-7366-2633
  • Gestefane Rabbi Magalhães Universidade Federal de Minas Gerais (UFMG)
  • Raiane Asevedo Universidade Federal de Minas Gerais (UFMG)
  • Julia Paes Universidade Federal de Minas Gerais (UFMG)
  • Isaias José Ramos Oliveira Universidade Federal de Minas Gerais (UFMG)
  • Adriana Pagano Universidade Federal de Minas Gerais (UFMG)
  • Zilma Reis Universidade Federal de Minas Gerais (UFMG)
  • Marcos A. Gonçalves Universidade Federal de Minas Gerais (UFMG)

Resumo


O desbalanceamento de classes é um desafio relevante na classificação automática de textos, especialmente em contextos de dados anotados escassos e línguas ainda sub-representadas, como é caso do português. Este estudo investiga a classificação de um conjunto de dados escassos desbalanceado constituído por solicitações de suporte técnico registradas por profissionais de saúde relativas aos sistemas do e-SUS APS. Foram avaliadas seis estratégias de reamostragem — duas de subamostragem e quatro de sobreamostragem, incluindo geração de paráfrases com Large Language Models. A combinação de sobreamostragem via paráfrases com rotulação seletiva elevou a Macro-F1 do BERTimbau em 18%, alcançando desempenho estatisticamente equivalente ao da Regressão Logística (RL) aplicada à junção de dados originais, random oversampling e rotulação seletiva, que atingiu 70% de melhorias em relação ao método original. A RL é contudo cerca de 3690x mais eficiente que o BERTimbau considerando a versão mais efetiva de ambos os métodos.
Palavras-chave: Classificação textual, Paráfrase, Reamostragem, Grande Modelo de Linguagem

Referências

Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explor. Newsl., 6(1):20–29.

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). Smote: synthetic minority oversampling technique. J. Artif. Int. Res., 16(1):321–357.

Cunha, W., França, C., Fonseca, G., Rocha, L., & Gonçalves, M. A. (2023). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’23, page 665–674, New York, NY, USA. Association for Computing Machinery.

Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., & Gonçalves, M. A. (2025). A noise-oriented and redundancy-aware instance selection framework. ACM Trans. Inf. Syst., 43(2).

Han, H., Wang, W.-Y., & Mao, B.-H. (2005). Borderline-smote: A new over-sampling method in imbalanced data sets learning. In Huang, D.-S., Zhang, X.-P., & Huang, G.-B., editors, Advances in Intelligent Computing, pages 878–887, Berlin, Heidelberg. Springer Berlin Heidelberg.

He, H. & Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284.

Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). XTREME: A massively multilingual multi-task benchmark for evaluating cross-lingual generalisation. In Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proc. of Machine Learning Research, pages 4411–4421. PMLR.

Last, F., Douzas, G., & Bação, F. (2017). Oversampling for imbalanced learning based on k-means and SMOTE. CoRR, abs/1711.00837.

McClure, J., Shimmei, M., Matsuda, N., & Jiang, S. (2024). Leveraging prompts in llms to overcome imbalances in complex educational text data.

Nguyen, H. M., Cooper, E. W., & Kamei, K. (2011). Borderline over-sampling for imbalanced data classification. Int. J. Knowl. Eng. Soft Data Paradigm., 3(1):4–21.

Souza, F., Nogueira, R., & Lotufo, R. (2020). BERTimbau: pretrained BERT models for Brazilian Portuguese. In 9th Brazilian Conference on Intelligent Systems, BRACIS, Rio Grande do Sul, Brazil, October 20-23 (to appear).

Tabar, V. R., Eskandari, F., Salimi, S., & Zareifard, H. (2018). Finding a set of candidate parents using dependency criterion for the k2 algorithm. Pattern Recognition Letters, 111:23–29.

Taskiran, S. F., Turkoglu, B., Kaya, E., & Asuroglu, T. (2025). A comprehensive evaluation of oversampling techniques for enhancing text classification performance. Scientific Reports, 15:21631.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, volume 30.

Yadav, V., Tang, Z., & Srinivasan, V. (2024). Pag-llm: Paraphrase and aggregate with large language models for minimizing intent classification errors. In Proc. of the International ACM SIGIR Conference, SIGIR ’24, page 2569–2573.
Publicado
29/09/2025
ANDRADE, Claudio M. V. de; MAGALHÃES, Gestefane Rabbi; ASEVEDO, Raiane; PAES, Julia; OLIVEIRA, Isaias José Ramos; PAGANO, Adriana; REIS, Zilma; GONÇALVES, Marcos A.. Estudo do Impacto de Dados Sintéticos e Paráfrases na Mitigação do Desbalanceamento em Tarefas de Classificação de Textos em Português com Baixa Amostragem. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 837-843. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247749.