Data mining from an online judge for predicting student dropout in introductory programming disciplines
Abstract
Dropout in CS1 (Computer Science 1) presents itself as a common problem at several universities. One of the ways to deal with this scenario is to look for mechanisms that identify the probability that a student will give up. In view of this, in this paper, 5 evasion prediction models are proposed in basic programming disciplines, using data mining techniques applied to the logs of an online Judge system. 38 attributes were extracted, from 2010 students from the years 2016 to 2019. The results show that the best model presented an average accuracy of at least 85.61% in the first two weeks of the course and reached 91.96% after six weeks of class, obtaining higher values in some classes.
Keywords:
Dropout in CS1, Data mining, Online judge, Machine Learning
References
Chen, T., He, T., Benesty, M., Khotilovich, V., and Tang, Y. (2015). Xgboost: extreme gradient boosting.R package version 0.4-2, pages 1–4.
Cieslak, D. A. and Chawla, N. V. (2008). Learning decision trees for unbalanced data. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 241–256. Springer.
Dwan, F., Oliveira, E., and Fernandes, D. (2017). Predição de zona de aprendizagem de alunos de introdução à programação em ambientes de correção automática de código. In Brazilian Symposium on Computers in Education (SBIE), volume 28, page 1507.
Galvão, L., Fernandes, D., and Gadelha, B. (2016). Juiz online como ferramenta de apoio a uma metodologia de ensino híbrido em programação. In Brazilian Symposium on Computers in Education (SBIE), volume 27, page 140.
Hamoud, A., Hashim, A. S., and Awadh, W. A. (2018). Predicting student performance in higher education institutions using decision tree analysis. International Journal of Interactive Multimedia and Artificial Intelligence, 5:26–31.
Hastie, T., Tibshirani, R., and Friedman, J. (2009). The elements of statistical learning: data mining, inference and prediction. Springer, 2 edition.
Jauhari, F. and Supianto, A. A. (2019). Building student’s performance decision tree classifier using boosting algorithm. Indonesian Journal of Electrical Engineering and Computer Science, 14(3):1298–1304.
Junior, I. B., Rabelo, H., Naschold, A. M. C., Ferreira, A. M., Burlamaqui, A., de Souza Rabelo, D. S., and Valentim, R. (2019). Uso de mineração de dados educacionais para a classificação e identificação de perfis de evasão de graduandos em sistemas de informação. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 8, page 159.
Khosravi, H. and Cooper, K. M. (2017). Using learning analytics to investigate patterns of performance and engagement in large classes. In Proceedings of the 2017 acm sigcse technical symposium on computer science education, pages 309–314.
Maia, M. d. C. and Meirelles, F. d. S. (2005). Tecnologias de informação e comunicação e os índices de evasão nos cursos a distância. In Proceedings of 12th International Congress of Distance Education.
Manhães, L. M. B., Da Cruz, S. M. S., Costa, R. J. M., Zavaleta, J., and Zimbrão, G.(2012). Previsão de estudantes com risco de evasão utilizando técnicas de mineraçãode dados. In Brazilian symposium on computers in education (sbie), volume 1.
Pereira, A. F. S., de Carvalho, L. S. G., and Souto, E. (2019). Predição de evasão de estudantes non-majors em disciplina de introdução à programação. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 8, page 178.
Schlemmer, E. and Portal, C. (2016). Estratégias para minimizar a evasão na educação adistância: o uso de um sistema de mineração de dados educacionais e learning analytics.
Wasif, M., Waheed, H., Aljohani, N. R., and Hassan, S.-U. (2019). Understanding student learning behavior and predicting their performance. In Cognitive Computing inTechnology-Enhanced Learning, pages 1–28. IGI Global.
Watson, C. and Li, F. W. (2014). Failure rates in introductory programming revisited. In Proceedings of the 2014 Conference on Innovation Technology in Computer Science Education, ITiCSE ’14, page 39–44, New York, NY, USA. Association for Computing Machinery.
Cieslak, D. A. and Chawla, N. V. (2008). Learning decision trees for unbalanced data. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 241–256. Springer.
Dwan, F., Oliveira, E., and Fernandes, D. (2017). Predição de zona de aprendizagem de alunos de introdução à programação em ambientes de correção automática de código. In Brazilian Symposium on Computers in Education (SBIE), volume 28, page 1507.
Galvão, L., Fernandes, D., and Gadelha, B. (2016). Juiz online como ferramenta de apoio a uma metodologia de ensino híbrido em programação. In Brazilian Symposium on Computers in Education (SBIE), volume 27, page 140.
Hamoud, A., Hashim, A. S., and Awadh, W. A. (2018). Predicting student performance in higher education institutions using decision tree analysis. International Journal of Interactive Multimedia and Artificial Intelligence, 5:26–31.
Hastie, T., Tibshirani, R., and Friedman, J. (2009). The elements of statistical learning: data mining, inference and prediction. Springer, 2 edition.
Jauhari, F. and Supianto, A. A. (2019). Building student’s performance decision tree classifier using boosting algorithm. Indonesian Journal of Electrical Engineering and Computer Science, 14(3):1298–1304.
Junior, I. B., Rabelo, H., Naschold, A. M. C., Ferreira, A. M., Burlamaqui, A., de Souza Rabelo, D. S., and Valentim, R. (2019). Uso de mineração de dados educacionais para a classificação e identificação de perfis de evasão de graduandos em sistemas de informação. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 8, page 159.
Khosravi, H. and Cooper, K. M. (2017). Using learning analytics to investigate patterns of performance and engagement in large classes. In Proceedings of the 2017 acm sigcse technical symposium on computer science education, pages 309–314.
Maia, M. d. C. and Meirelles, F. d. S. (2005). Tecnologias de informação e comunicação e os índices de evasão nos cursos a distância. In Proceedings of 12th International Congress of Distance Education.
Manhães, L. M. B., Da Cruz, S. M. S., Costa, R. J. M., Zavaleta, J., and Zimbrão, G.(2012). Previsão de estudantes com risco de evasão utilizando técnicas de mineraçãode dados. In Brazilian symposium on computers in education (sbie), volume 1.
Pereira, A. F. S., de Carvalho, L. S. G., and Souto, E. (2019). Predição de evasão de estudantes non-majors em disciplina de introdução à programação. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 8, page 178.
Schlemmer, E. and Portal, C. (2016). Estratégias para minimizar a evasão na educação adistância: o uso de um sistema de mineração de dados educacionais e learning analytics.
Wasif, M., Waheed, H., Aljohani, N. R., and Hassan, S.-U. (2019). Understanding student learning behavior and predicting their performance. In Cognitive Computing inTechnology-Enhanced Learning, pages 1–28. IGI Global.
Watson, C. and Li, F. W. (2014). Failure rates in introductory programming revisited. In Proceedings of the 2014 Conference on Innovation Technology in Computer Science Education, ITiCSE ’14, page 39–44, New York, NY, USA. Association for Computing Machinery.
Published
2020-11-24
How to Cite
SILVA, Dayvson dos Santos; TAMAYO, Sergio Cleger; PESSOA, Marcela; PIRES, Fernanda; OLIVEIRA, David Braga Fernandes; OLIVEIRA, Elaine Harada Teixeira de; CARVALHO, Leandro Silva Galvão de.
Data mining from an online judge for predicting student dropout in introductory programming disciplines. In: BRAZILIAN SYMPOSIUM ON COMPUTERS IN EDUCATION (SBIE), 31. , 2020, Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2020
.
p. 1343-1352.
DOI: https://doi.org/10.5753/cbie.sbie.2020.1343.
