Julgamento Automatizado de Agentes Conversacionais: Usando LLM-as-a-Judge para avaliar um software baseado em Inteligência Artificial para o Ensino de Computação

Danilo Guimarães Souza Azevedo; Melques Santos Paiva; Ana Kessilly Chiachio Cerqueira; Crescencio Lima; Djan Almeida Santos; Luis Paulo da Silva Carvalho

doi:10.5753/sbsi_estendido.2026.249124

Danilo Guimarães Souza Azevedo IFBA
Melques Santos Paiva IFBA
Ana Kessilly Chiachio Cerqueira IFBA
Crescencio Lima IFBA
Djan Almeida Santos IFBA
Luis Paulo da Silva Carvalho IFBA

DOI: https://doi.org/10.5753/sbsi_estendido.2026.249124

Resumo

A integração de Large Language Models (LLMs) em contextos educacionais exige validação rigorosa para evitar alucinações e garantir precisão. Este trabalho apresenta uma solução de avaliação automatizada baseada na técnica LLM-as-a-Judge, aplicada a um agente conversacional para o ensino de Ciência da Computação. O estudo descreve os fundamentos teóricos, a arquitetura da solução, a construção dos prompts e um fluxo de julgamento. Para validação, o consenso das IAs foi comparado à análise de um especialista humano. Os resultados indicam julgamentos coerentes e próximos aos do especialista, evidenciando o potencial da abordagem para apoiar a validação contínua de respostas tutoriais. Por fim, discutem-se limitações, desafios e perspectivas futuras.

Referências

Albuquerque, A., Wensing, I., Filho, N. J., and Dorneles, C. (2024). Avaliação de aplicações de geração aumentada de recuperação por meio de feedback implícito. In Anais Estendidos do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 253–259, Porto Alegre, RS, Brasil. SBC.

Assis, G., Freitas, C., and Paes, A. (2025). Exploring brazil’s llm fauna: Investigating the generative performance of large language models in portuguese. Journal of the Brazilian Computer Society, 31(1):940–972.

Bencke, L., Paula, F., dos Santos, B., and Moreira, V. P. (2024). Can we trust llms as relevance judges? In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 600–612, Porto Alegre, RS, Brasil. SBC.

Chiang, C.-H. and yi Lee, H. (2023). Can large language models be an alternative to human evaluations? Dubois, Y., Li, X., Taori, R., Zhang, T., Gulrajani, I., Ba, J., Guestrin, C., Liang, P., and Hashimoto, T. B. (2024). Alpacafarm: A simulation framework for methods that learn from human feedback.

Gu, J., Jiang, X., Shi, Z., Tan, H., Zhai, X., Xu, C., Li, W., Shen, Y., Ma, S., Liu, H., Wang, S., Zhang, K., Wang, Y., Gao, W., Ni, L., and Guo, J. (2025). A survey on llm-as-a-judge.

Li, H., Dong, Q., Chen, J., Su, H., Zhou, Y., Ai, Q., Ye, Z., and Liu, Y. (2024). Llms-as-judges: A comprehensive survey on llm-based evaluation methods.

Parnas, D. L. (1972). On the criteria to be used in decomposing systems into modules. Communications of the ACM, 15(12):1053–1058.

Senduk, F., Najoan, X., and Sompie, S. (2023). Development of microservices architecture with restful api gateway using backend-for-frontend pattern in higher education academic portal. J. Tek. Inform, 18(1):315–324.

Son, M., Won, Y.-J., and Lee, S. (2025). Optimizing large language models: A deep dive into effective prompt engineering techniques. Applied Sciences (2076-3417), 15(3).

van Bekkum, M., de Boer, M., van Harmelen, F., Meyer-Vitali, A., and Teije, A. t. (2021). Modular design patterns for hybrid learning and reasoning systems: a taxonomy, patterns and use cases. Applied Intelligence, 51(9):6528–6546.

Wang, J. J. and Wang, V. X. (2025). Assessing consistency and reproducibility in the outputs of large language models: Evidence across diverse finance and accounting tasks. arXiv preprint. arXiv:2503.16974.

Wang, P., Li, L., Chen, L., Cai, Z., Zhu, D., Lin, B., Cao, Y., Liu, Q., Liu, T., and Sui, Z. (2023). Large language models are not fair evaluators.

Zhao, J., Fang, M., Pan, S., Yin, W., and Pechenizkiy, M. (2023). Gptbias: A comprehensive framework for evaluating bias in large language models. arXiv preprint arXiv:2312.06315.

Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena.