Uso de LLMs no Agrupamento e Classificação de Estratégias de Programação em Juízes On-line
Resumo
Introdução: Juízes on-line são amplamente utilizados em disciplinas de programação, mas em sua maioria, consideram apenas a corretude dos códigos, sem levar em conta outros aspectos. Compreender as estratégias adotadas para resolver problemas é importante, pois permite ao professor avaliar, por exemplo, se os alunos estão assimilando os conteúdos da disciplina e aplicando-os adequadamente. Objetivo: Neste trabalho, investiga-se o uso de LLMs para identificar, agrupar e descrever estratégias para resolver exercícios de programação. Metodologia: Foram utilizados seis LLMs para realizar o agrupamento e descrição. Resultados: Os resultados preliminares indicam que, com a formulação adequada dos prompts, os LLMs têm potencial para realizar a tarefa de classificação de estratégias, com o GPT apresentando o desempenho mais consistente entre os modelos avaliados.
Palavras-chave:
Juízes On-line, Educação em Computação, Large Language Models, Estratégias de Programação
Referências
Barbosa, A. d. A., de Barros Costa, E., and Brito, P. H. (2023). Juízes online são suficientes ou precisamos de um var? In Simpósio Brasileiro de Educação em Computação (EDUCOMP), pages 386–394. SBC.
Carvalho, L. S., Oliveira, D. B., and Gadelha, B. F. (2016). Juiz online como ferramenta de apoio a uma metodologia de ensino híbrido em programação. In Simpósio Brasileiro de Informática na Educação (SBIE), pages 140–149. SBC.
Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Figueras, C., Farazouli, A., Cerratto Pargman, T., McGrath, C., and Rossitto, C. (2025). Promises and breakages of automated grading systems: a qualitative study in computer science education. Education Inquiry, pages 1–22.
Glassman, E. L., Scott, J., Singh, R., Guo, P. J., and Miller, R. C. (2015). Overcode: Visualizing variation in student solutions to programming problems at scale. ACM Transactions on Computer-Human Interaction (TOCHI), 22(2):1–35.
Joyner, D., Arrison, R., Ruksana, M., Salguero, E., Wang, Z., Wellington, B., and Yin, K. (2019). From clusters to content: Using code clustering for course improvement. In Proceedings of the 50th ACM Technical Symposium on Computer Science Education, pages 780–786.
Koivisto, T. and Hellas, A. (2022). Evaluating codeclusters for effectively providing feedback on code submissions. In 2022 IEEE Frontiers in Education Conference (FIE), pages 1–9. IEEE.
Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., Eccles, T., Keeling, J., Gimeno, F., Dal Lago, A., et al. (2022). Competition-level code generation with alphacode. Science, 378(6624):1092–1097.
MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., and Leinonen, J. (2023). Experiences from using code explanations generated by large language models in a web software development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science Education V. 1, pages 931–937.
Mehta, A., Gupta, N., Balachandran, A., Kumar, D., Jalote, P., et al. (2023). Can chatgpt play the role of a teaching assistant in an introductory programming course? arXiv preprint arXiv:2312.07343.
Melo, R., Pessoa, M., and Fernandes, D. (2024). Clusterização de soluções de exercícios de programação: um mapeamento sistemático da literatura. Simpósio Brasileiro de Informática na Educação (SBIE), pages 1715–1729.
Melo, R., Souza, T., Pires, F., Oliveira, E., Carvalho, L., Pessoa, M., and Fernandes, D. (2026). Exploring the use of clustering algorithms and llms to identify programming strategies. Revista Brasileira de Informática na Educação, 34:59–82.
Paiva, J. C., Leal, J. P., and Figueira, Á. (2025). Clustering source code from automated assessment of programming assignments. International Journal of Data Science and Analytics, 20(2):1581–1592.
Pires, R., Abonizio, H., Almeida, T. S., and Nogueira, R. (2023). Sabiá: Portuguese large language models. In Brazilian Conference on Intelligent Systems, pages 226–240. Springer.
Piscitelli, A., De Rosa, M., Fuccella, V., Costagliola, G., et al. (2025). Large language models for student code evaluation: Insights and accuracy. In CSEDU (2), pages 534–544.
Poldrack, R. A., Lu, T., and Beguš, G. (2023). Ai-assisted coding: Experiments with gpt-4. arXiv preprint arXiv:2304.13187.
Reiss, M. V. (2023). Testing the reliability of chatgpt for text annotation and classification: A cautionary remark. arXiv preprint arXiv:2304.11085.
Wasik, S., Antczak, M., Badura, J., Laskowski, A., and Sternal, T. (2018). A survey on online judge systems and their applications. ACM Computing Surveys (CSUR), 51(1):1–34.
Carvalho, L. S., Oliveira, D. B., and Gadelha, B. F. (2016). Juiz online como ferramenta de apoio a uma metodologia de ensino híbrido em programação. In Simpósio Brasileiro de Informática na Educação (SBIE), pages 140–149. SBC.
Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
Figueras, C., Farazouli, A., Cerratto Pargman, T., McGrath, C., and Rossitto, C. (2025). Promises and breakages of automated grading systems: a qualitative study in computer science education. Education Inquiry, pages 1–22.
Glassman, E. L., Scott, J., Singh, R., Guo, P. J., and Miller, R. C. (2015). Overcode: Visualizing variation in student solutions to programming problems at scale. ACM Transactions on Computer-Human Interaction (TOCHI), 22(2):1–35.
Joyner, D., Arrison, R., Ruksana, M., Salguero, E., Wang, Z., Wellington, B., and Yin, K. (2019). From clusters to content: Using code clustering for course improvement. In Proceedings of the 50th ACM Technical Symposium on Computer Science Education, pages 780–786.
Koivisto, T. and Hellas, A. (2022). Evaluating codeclusters for effectively providing feedback on code submissions. In 2022 IEEE Frontiers in Education Conference (FIE), pages 1–9. IEEE.
Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., Eccles, T., Keeling, J., Gimeno, F., Dal Lago, A., et al. (2022). Competition-level code generation with alphacode. Science, 378(6624):1092–1097.
MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., and Leinonen, J. (2023). Experiences from using code explanations generated by large language models in a web software development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science Education V. 1, pages 931–937.
Mehta, A., Gupta, N., Balachandran, A., Kumar, D., Jalote, P., et al. (2023). Can chatgpt play the role of a teaching assistant in an introductory programming course? arXiv preprint arXiv:2312.07343.
Melo, R., Pessoa, M., and Fernandes, D. (2024). Clusterização de soluções de exercícios de programação: um mapeamento sistemático da literatura. Simpósio Brasileiro de Informática na Educação (SBIE), pages 1715–1729.
Melo, R., Souza, T., Pires, F., Oliveira, E., Carvalho, L., Pessoa, M., and Fernandes, D. (2026). Exploring the use of clustering algorithms and llms to identify programming strategies. Revista Brasileira de Informática na Educação, 34:59–82.
Paiva, J. C., Leal, J. P., and Figueira, Á. (2025). Clustering source code from automated assessment of programming assignments. International Journal of Data Science and Analytics, 20(2):1581–1592.
Pires, R., Abonizio, H., Almeida, T. S., and Nogueira, R. (2023). Sabiá: Portuguese large language models. In Brazilian Conference on Intelligent Systems, pages 226–240. Springer.
Piscitelli, A., De Rosa, M., Fuccella, V., Costagliola, G., et al. (2025). Large language models for student code evaluation: Insights and accuracy. In CSEDU (2), pages 534–544.
Poldrack, R. A., Lu, T., and Beguš, G. (2023). Ai-assisted coding: Experiments with gpt-4. arXiv preprint arXiv:2304.13187.
Reiss, M. V. (2023). Testing the reliability of chatgpt for text annotation and classification: A cautionary remark. arXiv preprint arXiv:2304.11085.
Wasik, S., Antczak, M., Badura, J., Laskowski, A., and Sternal, T. (2018). A survey on online judge systems and their applications. ACM Computing Surveys (CSUR), 51(1):1–34.
Publicado
19/07/2026
Como Citar
AGUIAR, Davi; MELO, Rafaela; PIRES, Fernanda; PESSOA, Marcela; FERNANDES, David.
Uso de LLMs no Agrupamento e Classificação de Estratégias de Programação em Juízes On-line. In: WORKSHOP SOBRE EDUCAÇÃO EM COMPUTAÇÃO (WEI), 34. , 2026, Gramado/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 493-504.
ISSN 2595-6175.
DOI: https://doi.org/10.5753/wei.2026.22274.
