Geração Automática de Questões de Programação Usando LLM: Um Relato de Experiência

Abner Santana; Francisco Genivan Silva; Júlio Dantas; Jadson Souza; Eduardo Aranha

doi:10.5753/wei.2025.9414

Abner Santana UFRN
Francisco Genivan Silva UFRN / IFRN
Júlio Dantas UFRN
Jadson Souza UFRN
Eduardo Aranha UFRN

DOI: https://doi.org/10.5753/wei.2025.9414

Resumo

Este artigo relata uma experiência de geração automática de 180 questões de programação introdutória usando modelos de linguagem de grande porte (LLMs). A metodologia foi baseada em ciclos iterativos de engenharia de prompt, envolvendo o uso de templates estruturados, exemplos guiados (few-shot prompting) e refinamento automatizado (self-refinement). A abordagem buscou garantir clareza, completude e alinhamento pedagógico nas questões geradas. Os resultados mostram que esse tipo de estratégia demonstrou-se eficaz e replicável, contribuindo para a produção escalável de conteúdo educacional com apoio de inteligência artificial. Além disso, diversas lições aprendidas são apresentadas, visando empoderar professores e pesquisadores com o uso dessas técnicas.

Referências

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33:1877–1901.

Carneiro, J., Aranha, E., and Santana, A. (2022). Aprendizado de domínio aplicada à educação matemática, da computação e engenharias: um mapeamento sistemático. In XXXIII Simpósio Brasileiro de Informática na Educação, Simpósio Brasileiro de Informática na Educação. Anais do XXXIII Simpósio Brasileiro de Informática na Educação.

Chan, W., An, A., and Davoudi, H. (2023). A case study on chatgpt question generation. In 2023 IEEE International Conference on Big Data (BigData), pages 1647–1656.

Doughty, J., Wan, Z., Bompelli, A., Qayum, J., Wang, T., Zhang, J., Zheng, Y., Doyle, A., Sridhar, P., Agarwal, A., Bogart, C., Keylor, E., Kultur, C., Savelka, J., and Sakr, M. (2024). A comparative study of ai-generated (gpt-4) and human-crafted mcqs in programming education. In 26th Australasian Computing Education Conference (ACE ’24), pages 114–123, New York, NY, USA. Association for Computing Machinery.

Faraby, S. A., Romadhony, A., and Adiwijaya (2024). Analysis of llms for educational question classification and generation. Computers and Education: Artificial Intelligence, 7.

Hevner, A., R, A., March, S., T, S., Park, Park, J., Ram, and Sudha (2004). Design science in information systems research. Management Information Systems Quarterly, 28:75–.

Kurdi, G., Leo, J., Parsia, B., et al. (2020). A systematic review of automatic question generation for educational purposes. International Journal of Artificial Intelligence in Education, 30:121–204.

Madaan, A., Lin, S., Liu, X., Yang, Y., Neubig, G., Le Bras, R., and Smith, N. A. (2023). Self-refine: Iterative refinement with self-feedback. arXiv preprint arXiv:2303.17651.

Meißner, N., Speth, S., and Becker, S. (2024). Automated programming exercise generation in the era of large language models. In 36th International Conference on Software Engineering Education and Training (CSEET), pages 1–5, Würzburg, Germany.

Niu, Y. and Xue, H. (2023). Exercise generation and student cognitive ability research based on chatgpt and rasch model. IEEE Access, 11:116695–116705.

Thalheimer, W. (2003). The learning benefits of questions. Technical report, Work Learning Research. Tech. rep.

Wu, T., Jiang, E., Donsbach, A., Gray, J., Molina, A., Terry, M., and Cai, C. J. (2022). Promptchainer: Chaining large language model prompts through visual programming.