Mineração de Dados Aplicada à Predição do Desempenho de Escolas e Técnicas de Interpretabilidade dos Modelos
Resumo
Este trabalho analisa o desempenho com mineração de dados das escolas de São Paulo no exame SARESP, com dados da SEDUC-SP. A metodologia, baseada no CRISP-DM, propõe uma solução de aprendizagem de máquina para prever o desempenho das escolas e extrair padrões relevantes do desempenho educacional com técnicas de IA Explicativas. Sete classificadores alcançaram alta acurácia (93%) e AUC ROC (0.97) na previsão do desempenho das escolas, com dados do perfil de alunos, escolas e valores sócio-econômicos externos. O modelo não-linear e as técnicas SHAP e Counterfactual evidenciaram fatores relevantes que podem impactar o resultado educacional e a utilidade da metodologia no apoio à decisão.
Referências
Baker, R., Isotani, S., and Carvalho, A. (2011). Mineraçao de dados educacionais: Oportunidades para o brasil. Revista Brasileira de Informática na Educação, 19(02), 03.
Calixto, K., Segundo, C., and de Gusmão, R. P. (2017). Mineração de dados aplicada a educação: um estudo comparativo acerca das características que influenciam a evasão escolar. In Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE), volume 28, page 1447
Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., and Wirth, R. (2000). Crisp-dm 1.0 step-by-step data mining guide.
da Silva Pinto, G., Júnior, O. F., Costa, E., Barbirato, J. C. C., & Rodrigues, W. R. M. (2019). Identificação dos fatores de melhorias no IDEB pelo uso de mineração de dados: Um estudo de caso em escolas municipais de MACEIÓ. In Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE) (Vol. 30, No. 1, p. 1828).
Gunning, D. (2017). Explainable artificial intelligence (xai). Defense Advanced Research Projects Agency (DARPA), nd Web, 2(2).
Han, J., Pei, J., and Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., and Liu, T.-Y. (2017). Lightgbm: A highly efficient gradient boosting decision tree. In Advances in neural information processing systems, pages 3146–3154.
Lacruz, A. J., Américo, B. L., & Carniel, F. (2019). Indicadores de qualidade na educação: análise discriminante dos desempenhos na Prova Brasil. Revista brasileira de educação, 24.
Lundberg, S. M. and Lee, S.-I. (2017). A unified approach to interpreting model predictions. In Advances in neural information processing systems, pages 4765–4774.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research , 12:2825–2830
Qin, F., Li, K., and Yan, J. (2020). Understanding user trust in artificial intelligence-based educational systems: Evidence from china. British Journal of Educational Technology, 51(5):1693–1710.
Silva, M. C. d., Souza, F., Tavares, A., and Silva, J. D. (2018). Índice de oportunidades da educação brasileira: Variáveis explicativas de rendimento dos alunos das capitais estaduais e dos estados brasileiros. Revista Cientıfica Hermes, 20:20.
Van Looveren, A. and Klaise, J. (2019). Interpretable counterfactual explanations guided by prototypes. arXiv preprint arXiv:1907.02584.