Entendendo os Fatores de Previsão do TDI nas Escolas Públicas Brasileiras: Uma Abordagem Usando a Técnica SHAP
Resumo
A Taxa de Distorção Idade-Série (TDI) mede a quantidade de alunos fora do ano curricular esperado para sua idade. Este artigo utiliza técnicas de aprendizagem de máquina para prever os valores do TDI entre 2018 e 2023, abrangendo períodos pré, durante e pós-pandemia. Utilizando dados do Censo da Educação Básica, detalhamos a seleção do algoritmo e o uso do SHAP para interpretar suas métricas. Nosso objetivo é identificar as características mais importantes apontadas pelo modelo preditivo e fomentar a discussão sobre melhorias qualitativas e quantitativas nas instituições de ensino, abordando aspectos estruturais, de planejamento e pedagógicos.
Referências
Barros, A. N., Xavier, E. L. S., Alves, G., and Mello, R. F. (2023). Aplicação de learning analytics para identificação de tomada de decisão sobre a distorção idade-série no Brasil. In Anais do II Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil, pages 21–31. SBC.
Bernardi, M. C. and Luchese, T. A. (2020). A taxa de alfabetização de Antônio Prado, Rio Grande do Sul (1895-1920). Revista Educação em Questão, 58(56).
Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32.
Brito, S. B. P., Braga, I. O., Cunha, C. C., Palácio, M. A. V., and Takenami, I. (2020). Pandemia da COVID-19: o maior desafio do século XXI. Vigilância Sanitária em Debate: Sociedade, Ciência & Tecnologia, 8(2):54–63.
Chen, T. and Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 785–794.
Corrêa, J. N. P. and Brandemberg, J. C. (2021). Tecnologias digitais da informação e comunicação no ensino de matemática em tempos de pandemia: desafios e possibilidades. Boletim Cearense de Educação e História da Matemática, 8(22):34–54.
de Andrade, M. C. B., Silva, L. F., Fecury, A. A., de Oliveira, E., Dendasck, C. V., de Araujo, M. H. M., da Souza, K. O., da Silva, I. R., de Medeiros Moreira, E. C., Pascoal, R. M., et al. (2020). Indicadores de complexidade de gestão em escolas públicas e privadas de duas cidades do estado do Amapá entre 2014 e 2018. Research, Society and Development, 9(9):e856998112–e856998112.
do Nascimento, R. L. S., da Cruz Junior, G. G., and de Araujo Fagundes, R. A. (2018). Mineração de dados educacionais: Um estudo sobre indicadores da educação em bases de dados do INEP. RENOTE, 16(1).
dos Santos, M. J. C. and Pouchain, J. F. (2011). Evasão escolar no ensino médio noturno: Um estudo de caso na escola de ensino fundamental e médio Prof. Jader Moreira de Carvalho. Conhecer: Debate entre o Público e o Privado, 1(01):295–329.
Evangelista, J. C. S., Santos, C. R., Silva, L. R., and Santos, A. R. d. (2017). A política do transporte escolar na educação do campo: impactos e desafios na realidade escolar. Seminário Nacional e Seminário Internacional Políticas Públicas, Gestão e Práxis Educacional, 6(6).
Ferreira, V. B. and Teixeira, E. C. (2018). O impacto da distorção idade-série sobre a criminalidade nos municípios de Minas Gerais. Revista Brasileira de Segurança Pública, 12(2):269–291.
Galzerano, L. S. (2021). Políticas educacionais em tempos de pandemia. Argumentum, 13(1):123–138.
Geurts, P., Ernst, D., and Wehenkel, L. (2006). Extremely randomized trees. Machine Learning, 63(1):3–42.
Hamilton, R. I. and Papadopoulos, P. N. (2023). Using SHAP values and machine learning to understand trends in the transient stability limit. IEEE Transactions on Power Systems.
Hancock, J. T. and Khoshgoftaar, T. M. (2020). CatBoost for big data: an interdisciplinary review. Journal of Big Data, 7(1):94.
Justino, M. R. (2022). A relação do esforço docente e da infraestrutura escolar nas taxas de rendimento escolar: uma análise para a cidade do Natal no ano de 2019. B.S. thesis, Universidade Federal do Rio Grande do Norte.
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., and Liu, T.-Y. (2017). LightGBM: A highly efficient gradient boosting decision tree. In Advances in Neural Information Processing Systems, pages 3146–3154.
Leite, G. B. (2022). Jogos cooperativos: uma introdução ao valor de Shapley. Informe Econômico (UFPI), 44(1).
Lubo-Robles, D., Devegowda, D., Jayaram, V., Bedle, H., Marfurt, K. J., and Pranter, M. J. (2020). Machine learning model interpretability using SHAP values: Application to a seismic facies classification task. In SEG International Exposition and Annual Meeting, page D021S008R006. SEG
Ludovico, F. M., Molon, J., Barcellos, P. D. S. C. C., Franco, S. R. K., et al. (2020). COVID-19: desafios dos docentes na linha de frente da educação. Interfaces Científicas-Educação, 10(1):58–74.
Mahbooba, B., Timilsina, M., Sahal, R., and Serrano, M. (2021). Explainable artificial intelligence (XAI) to enhance trust management in intrusion detection systems using decision tree model. Complexity, 2021:1–11.
Mühleisen, H. and Raasveldt, M. (2024). DuckDB: DBI Package for the DuckDB Database Management System. R package version 1.0.0.9000, [link].
Nogueira, M. D. O. E. and Silva, L. C. (2022). Escolarização em áreas rurais: a distorção idade-série na ótica dos gestores. Estudos em Avaliação Educacional, 33.
Palomino, P., Falcao, T. P., Medeiros, R., Uehara, M., Bittencourt, I., and Mello, R. F. (2022). Plataformas de dados educacionais: Análise com foco no Plano Nacional de Educação. In Anais do I Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil, pages 60–68. SBC.
Peres, M. R. (2020). Novos desafios da gestão escolar e de sala de aula em tempos de pandemia. Revista de Administração Educacional, 11(1):20–31.
Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., and Gulin, A. (2018). CatBoost: Unbiased boosting with categorical features. Advances in Neural Information Processing Systems, 31.
Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1):81–106.
Rodrigues, E. C. et al. (2016). Indicadores educacionais e contexto escolar: uma análise das metas do IDEB. Estudos em Avaliação Educacional, 27(65):197–224.
Schwartzman, S. and Brock, C. (2005). Os desafios da educação no brasil. Rio de Janeiro: Nova Fronteira, 1320.
Silva, D. S. M. d., Se, E. V. G., Lima, V. V., Borim, F. S. A., Oliveira, M. S. d., and Padilha, R. d. Q. (2022). Metodologias ativas e tecnologias digitais na educação médica: novos desafios em tempos de pandemia. Revista Brasileira de Educação Médica, 46
Wang, D., Thunell, S., Lindberg, U., Jiang, L., Trygg, J., and Tysklind, M. (2022). Towards better process management in wastewater treatment plants: Process analytics based on SHAP values for tree-based machine learning methods. Journal of Environmental Management, 301:113941.