Análise Comparativa entre Métodos Tradicionais de Aprendizado de Máquina e Aprendizado Ativo na Predição da Evasão Escolar

  • Felipe Simão H. de Araújo CESAR
  • Luciano de Souza Cabral CESAR / IFPE / UFAL
  • Rafael Ferreira Mello CESAR / UFRPE / UFAL

Resumo


Este artigo propõe uma abordagem automatizada para a predição da evasão no ensino superior, comparando modelos supervisionados tradicionais com estratégias baseadas em aprendizado ativo. O estudo buscou responder a duas questões centrais: (1) Como construir modelos preditivos eficazes de forma automatizada? e (2) Como minimizar a rotulagem manual sem comprometer o desempenho? Para isso, foram desenvolvidas duas pipelines. A tradicional avaliou algoritmos como XGBoost, LightGBM e Random Forest, com seleção via F1-Score e otimização de hiperparâmetros por Grid Search, Random Search, BayesSearchCV e Optuna. A pipeline com aprendizado ativo priorizou a redução da rotulagem, mantendo resultados competitivos. Os achados indicam que ambas as abordagens são eficazes na antecipação do risco de evasão, oferecendo suporte estratégico à tomada de decisão baseada em dados.

Referências

Akiba, T., Sano, S., Yanase, T., Ohta, T., and Koyama, M. (2019). Optuna: A next-generation hyperparameter optimization framework. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’19), pages 2623–2631. Association for Computing Machinery.

Ash, J. T., Zhang, C., Krishnamurthy, A., Langford, J., and Agarwal, A. (2020). Deep batch active learning by diverse, uncertain gradient lower bounds. arXiv preprint arXiv:1906.03671.

Bitencourt, W. A., Silva, D. M., and Xavier, G. C. (2021). Pode a inteligência artificial apoiar ações contra evasão escolar universitária? Ensaio: Avaliação e Políticas Públicas em Educação, 29(111).

Cabral, L. (2023). Assessing algorithmic fairness: A comparison of traditional machine learning and active learning methods. Relatório de pesquisa pós-doutoral PD-2025-001, CESAR School. Relatório de pesquisa pós-doutoral.

Costa, M. J. S., Silva, A. A., and Andrade, F. C. S. (2020). Aprendizado ativo para predição da evasão escolar com uso eficiente de dados rotulados. In Anais do Simpósio Brasileiro de Informática na Educação (SBIE), pages 343–352. SBC.

de Araujo, C. L., Santos, Q. P., Ribeiro, H. M. L., do Nascimento de Freitas, E. B., and Coutinho, D. J. G. (2025). Evasão escolar: Causas e impactos da evasão escolar no brasil e no mundo. Revista Ibero-Americana de Humanidades, Ciências e Educação — REASE, 11(1).

Dormann, C. F., Elith, J., Bacher, S., Buchmann, C., Carl, G., Carré, G., Marquéz, J. R. G., Gruber, B., Lafourcade, B., Leitão, P. J., Münkemüller, T., McClean, C., Osborne, P. E., Reineking, B., Schröder, B., Skidmore, A. K., Zurell, D., and Lautenbach, S. (2013). Collinearity: a review of methods to deal with it and a simulation study evaluating their performance. Ecography, 36(1):27–46.

Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of machine learning research, 3:1157–1182.

Luque, A., Carrasco, A., Martín, A., and de las Heras, A. (2019). The impact of class imbalance in classification performance metrics based on the binary confusion matrix. Pattern Recognition, 91:216–231.

McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia Medica, 22(3):276–282.

Nguyen, Q.-H., Nguyen, M.-T., Pham, V.-T., Dinh, D.-P., Seo, E. C., and Chung, T.-M. (2022). Deep active learning with semi-supervised training for covid-19 detection from chest ct images. Electronics, 11(18):2893.

Oliveira, R. d. S. and Medeiros, F. P. A. d. (2024). Modelo de predição de evasão escolar com base em dados de autoavaliação de cursos de graduação. Revista Brasileira de Informática na Educação (RBIE), 32:1–21.

Pimentel, M. S., da Silva, C. B., and Gomes, F. F. B. (2023). Análise de dados com machine learning: Classificação de alunos em risco de evasão escolar utilizando modelos de machine learning. Apoena - Revista de Educação e Pesquisa, 9(2):45–63.

Rimal, Y., Sharma, N., and Alsadoon, A. (2024). The accuracy of machine learning models relies on hyperparameter tuning: student result classification using random forest, randomized search, grid search, bayesian, genetic, and optuna algorithms. Multimedia Tools and Applications.

Rodrigues, F. D. S., Viana, W. O., Figueiredo, K. L., dos Santos, R. C., da Silva, A. G. P., and Zárate, L. E. (2019). Evaluating machine learning classifiers for predicting student dropout in higher education using imbalanced data. Education Sciences, 9(4):275.

Settles, B. (2012). Active Learning, volume 6 of Synthesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool Publishers.

Silva, J. J. d. (2022). Uma comparação de técnicas de aprendizado de máquina para predição de evasão de estudantes no ensino público superior. Dissertação de mestrado, Universidade de São Paulo.

Teodoro, L. d. A. and Kappel, M. A. A. (2020). Aplicação de técnicas de aprendizado de máquina para predição de risco de evasão escolar em instituições públicas de ensino superior no brasil. Revista Brasileira de Informática na Educação, 28(0).
Publicado
25/11/2025
ARAÚJO, Felipe Simão H. de; CABRAL, Luciano de Souza; MELLO, Rafael Ferreira. Análise Comparativa entre Métodos Tradicionais de Aprendizado de Máquina e Aprendizado Ativo na Predição da Evasão Escolar. In: WORKSHOP DE APLICAÇÕES PRÁTICAS DE LEARNING ANALYTICS E INTELIGÊNCIA ARTIFICIAL NO BRASIL (WAPLA), 3. , 2025, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 37-44. DOI: https://doi.org/10.5753/wapla.2025.15898.