Avaliação de Algoritmos de Classificação em Dados Desbalanceados sob o Trade-off entre Precisão e Recall
Resumo
O desbalanceamento de classes é um desafio central na classificação supervisionada. Este estudo analisa quatro algoritmos (SVM, Árvore de Decisão, BRF e XGBoost) em oito cenários de desbalanceamento (IR 3,91–129,53). Sob protocolo estatístico de Wilcoxon com correção de Bonferroni-Holm, os resultados comprovam a superioridade do XGBoost em Recall (padj≤0,047, rank 1,06), tornando-o ideal para aplicações onde falsos negativos são críticos. Quanto à Precisão, XGBoost, BRF e SVM apresentam equivalência estatística, mas o XGBoost destaca-se por sua alta eficiência computacional frente aos demais. O estudo conclui que a escolha do classificador deve ser rigorosamente orientada pelo custo do erro e pela viabilidade temporal do domínio.
Referências
Chamlal, H., Kamel, H., and Ouaderhman, T. (2024). A hybrid multi-criteria meta-learner based classifier for imbalanced data. Knowledge-Based Systems, 285:111367.
Dai, Q. et al. (2024). Class-overlap detection based on heterogeneous clustering ensemble for multi-class imbalance problem. Expert Systems with Applications, 255:124558.
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1–30.
Khedmati, M. et al. (2024). A cluster-based smote both-sampling (csbboost) ensemble algorithm for classifying imbalanced data. Scientific Reports, 14.
Liaw, L. C. M., Tan, S. C., Goh, P. Y., and Lim, C. P. (2025). A histogram smote-based sampling algorithm with incremental learning for imbalanced data classification. Information Sciences, 686:121193.
Zhang, J., Wang, T., Ng, W. W., and Pedrycz, W. (2022). Ensembling perturbation-based oversamplers for imbalanced datasets. Neurocomputing, 479:1–11.
Dai, Q. et al. (2024). Class-overlap detection based on heterogeneous clustering ensemble for multi-class imbalance problem. Expert Systems with Applications, 255:124558.
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1–30.
Khedmati, M. et al. (2024). A cluster-based smote both-sampling (csbboost) ensemble algorithm for classifying imbalanced data. Scientific Reports, 14.
Liaw, L. C. M., Tan, S. C., Goh, P. Y., and Lim, C. P. (2025). A histogram smote-based sampling algorithm with incremental learning for imbalanced data classification. Information Sciences, 686:121193.
Zhang, J., Wang, T., Ng, W. W., and Pedrycz, W. (2022). Ensembling perturbation-based oversamplers for imbalanced datasets. Neurocomputing, 479:1–11.
Publicado
08/07/2026
Como Citar
SERPA, Caio; FAGUNDES, Roberta.
Avaliação de Algoritmos de Classificação em Dados Desbalanceados sob o Trade-off entre Precisão e Recall. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DA REGIÃO NORDESTE (ERAD-NE), 7. , 2026, Recife/PE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 37-41.
DOI: https://doi.org/10.5753/erad-ne.2026.25249.