Avaliação de Conversas Educacionais Sintéticas Geradas por LLMs no Ensino de Programação

Flávio Izo; João Pedro Chaves Cruz; Lorenzo Rainha Gomes; Lucas Guimarães Bosio Altoé; Maria Eduarda Agum Mendonça Chagas

doi:10.5753/wei.2026.22184

Flávio Izo IFES
João Pedro Chaves Cruz IFES
Lorenzo Rainha Gomes IFES
Lucas Guimarães Bosio Altoé IFES
Maria Eduarda Agum Mendonça Chagas IFES

DOI: https://doi.org/10.5753/wei.2026.22184

Resumo

Este trabalho propõe e avalia o SCEPA, uma métrica e estrutura multidimensional para análise de diálogos educacionais sintéticos gerados por Modelos de Linguagem de Grande Escala (LLMs) no ensino de programação. Quatro LLMs foram comparados em dez cenários e analisados por seis avaliadores utilizando critérios em escala Likert. A análise incluiu confiabilidade interavaliadores e estatísticas descritivas. Os resultados indicam diferenças no desempenho pedagógico entre os modelos, com Gemini 2.5 Pro com o melhor desempenho (4,714), seguido por DeepSeek R1 (4,631) e Claude Sonnet 4 (4,552), enquanto o ChatGPT-5 obteve pontuação inferior (3,791). Esses resultados demonstram a utilidade do índice SCEPA para avaliar diálogos educacionais gerados por LLMs.

Referências

Alves, R. d. S., Nascimento, G. M. d., and Sousa, R. R. d. (2021). Elementos do Emprego de Chatbots para Auxílio no Ensino de Programação: Uma Revisão Sistemática da Literatura. Brazilian Journal of Development, 7(5):43908–43927.

Arôso Mendes Barbosa, C. M. (2012). A Aprendizagem Mediada por TIC: Interação e Cognição em Perspectiva. Revista Brasileira De Aprendizagem Aberta e a Distância, 11.

Barbosa, C. R. d. A. C. (2023). Transformações no Ensino-Aprendizagem com o Uso da Inteligência Artificial: Revisão Sistemática da Literatura. RECIMA21 Revista Científica Multidisciplinar, 4(3).

Bortolazzo, S. F. (2024). Storytelling: Entre Usos, Benefícios e Aprendizagens. Ensino em Re-Vista, 31(Contínua):1–24.

Cardoso, F. S., Pereira, N. d. S., Braggion, R. C., Chaves, P., and Andrioli, M. (2023). O Uso da Inteligência Artificial na Educação e Seus Benefícios: Uma Revisão Exploratória e Bibliográfica. Revista Ciência em Evidência, 4.

Gwet, K. L. (2008). Computing inter-rater reliability and its variance in the presence of high agreement. British Journal of Mathematical and Statistical Psychology, 61(1):29–48.

Haider, S. A., Prabha, S., Gomez-Cabello, C. A., Borna, S., Genovese, A., Trabilsy, M., Collaco, B. G., Wood, N. G., Bagaria, S., Tao, C., and Forte, A. J. (2025). Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation. Sensors, 25(14):4305.

Landis, J. R. and Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1):159–174.

M. Valença, M. and Balthazar Tostes, A. P. (2019). O Storytelling como Ferramenta de Aprendizado Ativo. Carta Internacional, 14(2).

Maia, S. M. and Sarkis, L. C. (2025). Utilização de LLM como Ferramenta de Apoio no Ensino-Aprendizagem de Programação Python para Iniciantes: Um Relato de Experiência. In Workshop sobre Educação em Computação (WEI), pages 385–396. SBC.

Reis, C. d. S. (2025). Inteligência Artificial Generativa, Metodologias Ativas e Escolarização Aberta: Desafios e Potencialidades no Ambiente Educacional no Ensino Superior. Dissertação de mestrado, Universidade Federal de Santa Catarina, Florianópolis, SC.

Silva, T. L. d., Vidotto, K. N. S., Tarouco, L. M. R., and Silva, P. F. d. (2024). Inteligência Artificial Generativa no Ensino de Programação: Um Mapeamento Sistemático da Literatura. Revista Novas Tecnologias na Educação, 22(1):262–272.

Siqueira, E., Portela, C., and Moraes, A. (2025). Teaching Assistant Based on a Brazilian Large Language Model. In Anais do XXI Simpósio Brasileiro de Sistemas de Informação, pages 300–308, Porto Alegre, RS, Brasil. SBC.

Sociedade Brasileira de Computação (2025). Grandes Desafios da Computação no Brasil 2025–2035. Sociedade Brasileira de Computação, Porto Alegre, Brasil.

Sullivan, G. M. and Artino Jr, A. R. (2013). Analyzing and interpreting data from likerttype scales. Journal of fvachgraduate medical education, 5(4):541.

Vach, W. and Gerke, O. (2023). Gwet’s AC1 is not a Substitute for Cohen’s Kappa A Comparison of Basic Properties. MethodsX, 10:102212.

Vygotsky, L. S. (1978). Mind in Society: The Development of Higher Psychological Processes. Harvard University Press.

Vygotsky, L. S. (2008). Pensamento e Linguagem. Martins Fontes, São Paulo, 4 edition.

Wongpakaran, N., Wongpakaran, T., Wedding, D., and Gwet, K. L. (2013). A Comparison of Cohen’s Kappa and Gwet’s AC1 When Calculating Inter-Rater Reliability Coefficients: a Study Conducted with Personality Disorder Samples. BMC Medical Research Methodology, 13(1):61.

Zhang, Y., Chen, T. Y., Huang, R., Pike, M., Towey, D., Ying, Z., and Zhou, Z. Q. (2025). Comparative Analysis of Styles in LLM-Generated Code for LeetCode Problems: A Preliminary Study. In 2025 IEEE 49th Annual Computers, Software, and Applications Conference (COMPSAC), pages 1625–1630.