Uso de LLMs no Agrupamento e Classificação de Estratégias de Programação em Juízes On-line

Davi Aguiar; Rafaela Melo; Fernanda Pires; Marcela Pessoa; David Fernandes

doi:10.5753/wei.2026.22274

Davi Aguiar UEA
Rafaela Melo UEA / UFAM
Fernanda Pires UEA
Marcela Pessoa UEA
David Fernandes UFAM

DOI: https://doi.org/10.5753/wei.2026.22274

Resumo

Introdução: Juízes on-line são amplamente utilizados em disciplinas de programação, mas em sua maioria, consideram apenas a corretude dos códigos, sem levar em conta outros aspectos. Compreender as estratégias adotadas para resolver problemas é importante, pois permite ao professor avaliar, por exemplo, se os alunos estão assimilando os conteúdos da disciplina e aplicando-os adequadamente. Objetivo: Neste trabalho, investiga-se o uso de LLMs para identificar, agrupar e descrever estratégias para resolver exercícios de programação. Metodologia: Foram utilizados seis LLMs para realizar o agrupamento e descrição. Resultados: Os resultados preliminares indicam que, com a formulação adequada dos prompts, os LLMs têm potencial para realizar a tarefa de classificação de estratégias, com o GPT apresentando o desempenho mais consistente entre os modelos avaliados.

Palavras-chave: Juízes On-line, Educação em Computação, Large Language Models, Estratégias de Programação

Referências

Barbosa, A. d. A., de Barros Costa, E., and Brito, P. H. (2023). Juízes online são suficientes ou precisamos de um var? In Simpósio Brasileiro de Educação em Computação (EDUCOMP), pages 386–394. SBC.

Carvalho, L. S., Oliveira, D. B., and Gadelha, B. F. (2016). Juiz online como ferramenta de apoio a uma metodologia de ensino híbrido em programação. In Simpósio Brasileiro de Informática na Educação (SBIE), pages 140–149. SBC.

Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. D. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

Figueras, C., Farazouli, A., Cerratto Pargman, T., McGrath, C., and Rossitto, C. (2025). Promises and breakages of automated grading systems: a qualitative study in computer science education. Education Inquiry, pages 1–22.

Glassman, E. L., Scott, J., Singh, R., Guo, P. J., and Miller, R. C. (2015). Overcode: Visualizing variation in student solutions to programming problems at scale. ACM Transactions on Computer-Human Interaction (TOCHI), 22(2):1–35.

Joyner, D., Arrison, R., Ruksana, M., Salguero, E., Wang, Z., Wellington, B., and Yin, K. (2019). From clusters to content: Using code clustering for course improvement. In Proceedings of the 50th ACM Technical Symposium on Computer Science Education, pages 780–786.

Koivisto, T. and Hellas, A. (2022). Evaluating codeclusters for effectively providing feedback on code submissions. In 2022 IEEE Frontiers in Education Conference (FIE), pages 1–9. IEEE.

Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., Eccles, T., Keeling, J., Gimeno, F., Dal Lago, A., et al. (2022). Competition-level code generation with alphacode. Science, 378(6624):1092–1097.

MacNeil, S., Tran, A., Hellas, A., Kim, J., Sarsa, S., Denny, P., Bernstein, S., and Leinonen, J. (2023). Experiences from using code explanations generated by large language models in a web software development e-book. In Proceedings of the 54th ACM Technical Symposium on Computer Science Education V. 1, pages 931–937.

Mehta, A., Gupta, N., Balachandran, A., Kumar, D., Jalote, P., et al. (2023). Can chatgpt play the role of a teaching assistant in an introductory programming course? arXiv preprint arXiv:2312.07343.

Melo, R., Pessoa, M., and Fernandes, D. (2024). Clusterização de soluções de exercícios de programação: um mapeamento sistemático da literatura. Simpósio Brasileiro de Informática na Educação (SBIE), pages 1715–1729.

Melo, R., Souza, T., Pires, F., Oliveira, E., Carvalho, L., Pessoa, M., and Fernandes, D. (2026). Exploring the use of clustering algorithms and llms to identify programming strategies. Revista Brasileira de Informática na Educação, 34:59–82.

Paiva, J. C., Leal, J. P., and Figueira, Á. (2025). Clustering source code from automated assessment of programming assignments. International Journal of Data Science and Analytics, 20(2):1581–1592.

Pires, R., Abonizio, H., Almeida, T. S., and Nogueira, R. (2023). Sabiá: Portuguese large language models. In Brazilian Conference on Intelligent Systems, pages 226–240. Springer.

Piscitelli, A., De Rosa, M., Fuccella, V., Costagliola, G., et al. (2025). Large language models for student code evaluation: Insights and accuracy. In CSEDU (2), pages 534–544.

Poldrack, R. A., Lu, T., and Beguš, G. (2023). Ai-assisted coding: Experiments with gpt-4. arXiv preprint arXiv:2304.13187.

Reiss, M. V. (2023). Testing the reliability of chatgpt for text annotation and classification: A cautionary remark. arXiv preprint arXiv:2304.11085.

Wasik, S., Antczak, M., Badura, J., Laskowski, A., and Sternal, T. (2018). A survey on online judge systems and their applications. ACM Computing Surveys (CSUR), 51(1):1–34.