Engenharia de Prompt para a Geração Automatizada de Questões Assistida por LLMs: Uma Análise Comparativa
Resumo
A Educação 5.0, impulsionada pelos avanços em Grandes Modelos de Linguagem (LLMs), promove experiências de aprendizagem personalizadas, acessíveis e centradas no estudante. Nesse contexto, cresce o interesse por metodologias automatizadas de avaliação, como a geração de questões de múltipla escolha (MCQs). A eficácia dessas abordagens depende diretamente da qualidade das instruções fornecidas aos modelos, ou seja, da Engenharia de Prompt (PE). Este trabalho analisa comparativamente cinco técnicas de PE, aplicadas à geração de MCQs na área de Engenharia de Requisitos, utilizando quatro LLMs. Combinou-se a avaliação cruzada entre modelos e validação pedagógica humana, com base em critérios linguísticos e educacionais. Os resultados contribuem para a adoção mais crítica e eficiente dos LLMs na educação.Referências
AI, M. (2024). Introducing Meta Llama 3.1: The Latest Generation of Meta’s OpenSource Large Language Models. Blog Post. Accessed: 11 June 2025. Specific model version: Llama 3.1 8B Instant.
Amyeen, R. (2023). Prompt-Engineering and Transformer-based Question Generation and Evaluation. arXiv.org.
Baral, S., Worden, E., Lim, W.-C., Luo, Z., Santorelli, C., Gurung, A., and Heffernan, N. (2024). Automated feedback in math education: A comparative analysis of llms for open-ended responses. arXiv. Pré-publicação.
de Amorim da Silva, A., Moreira, J. P., Silva, G. P. G., Cintra, J. P., and Ciferri, R. R. (2025). Anaquest: Uma ferramenta para geração e validação de questões de múltipla escolha com llms e teoria de resposta ao item. In Proceedings of the International Conference on Artificial Intelligence in Education (AIED), Brasil. Springer. No prelo.
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Technical Report arXiv:2501.12948v1, DeepSeek AI.
Denzin, N. K. (1978). The Research Act: A Theoretical Introduction to Sociological Methods. McGraw-Hill, New York, 2nd edition.
Estévez-Ayres, I., Callejo, P., Hombrados-Herrera, M. Á., Alario-Hoyos, C., and Delgado Kloos, C. (2024). Evaluation of LLM Tools for Feedback Generation in a Course on Concurrent Programming. International Journal of Artificial Intelligence in Education.
Hang, C. N., Wei Tan, C., and Yu, P.-D. (2024). Mcqgen: A Large Language Model-Driven MCQ Generator for Personalized Learning. IEEE Access, 12:102261–102273.
Jauhiainen, Nome do Primeiro Autor e Garagorry, N. d. S. A. (2024). Avaliação de respostas discursivas de estudantes com llms: uso do framework rag. arXiv. Pré-publicação.
Jia, N. d. P. A. e. o. (2024). Avaliando a fidelidade do feedback gerado por llms. In Anais do EDM 2024 – Educational Data Mining.
Koutcheme, C., Dainese, N., Sarsa, S., Hellas, A., Leinonen, J., and Denny, P. (2024). Open source language models can provide feedback: Evaluating llms’ ability to help students using gpt-4-as-a-judge. In Proceedings of the 2024 on Innovation and Technology in Computer Science Education, pages 52–58.
Li, K. and Zhang, Y. (2024). Planejamento primeiro, pergunta depois: Um método guiado por llms para geração controlável de questões. In Anais da ACL 2024 – Findings of the Association for Computational Linguistics, pages 4715–4729, Bangkok, Tailândia.
Maity, S. and Deroy, A. (2024). O futuro da aprendizagem na era da ia generativa: geração e avaliação automatizada de questões com grandes modelos de linguagem. arXiv. Pré-publicação.
Maity, S., Deroy, A., and Sarkar, S. (2023). Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models. In Proceedings of the 15th Annual Meeting of the Forum for Information Retrieval Evaluation, pages 30–39. ACM.
Mazzullo, N. d. P. A. and Bulut, N. d. S. A. (2024). Automated feedback generation for open-ended questions. In NeurIPS 2024.
Meyer, J., Jansen, T., Schiller, R., Liebenow, L. W., Steinbach, M., Horbach, A., and Fleckenstein, J. (2024). Using LLMs to bring evidence-based feedback into the class-room: Ai-generated feedback increases secondary students’ text revision, motivation, and positive emotions. Computers and Education: Artificial Intelligence, 6:100199.
Parker, N. d. P. A. e. o. (2024). Uma abordagem com grandes modelos de linguagem para análise de feedback em pesquisas educacionais. SpringerLink.
Scaria, N., Chenna, S. D., and Subramani, D. (2024a). Geração automatizada de questões educacionais nos diferentes níveis da taxonomia de bloom utilizando llms. arXiv. Pré-publicação.
Scaria, N., Chenna, S. D., and Subramani, D. (2024b). Quão bons são os llms modernos na geração de perguntas relevantes e de alta qualidade nos diferentes níveis da taxonomia de bloom para o currículo de ciências sociais do ensino médio na Índia? In Anais do 19º Workshop sobre Uso Inovador de PLN na Educação (BEA 2024), Cidade do México, México.
Scarlatos, A., Smith, D., Woodhead, S., and Lan, A. (2024). Improving the Validity of Automatically Generated Feedback via Reinforcement Learning, pages 280–294. Springer Nature Switzerland.
Schorcht, S., Buchholtz, N., and Baumanns, L. (2024). Prompt the problem – investigating the mathematics educational quality of AI-supported problem solving by comparing prompt techniques. Frontiers in Education, 9.
Team, G. (2024a). Gemma 2: Improving Open Language Models at a Practical Size. Technical Report arXiv:2408.00118v1, Google DeepMind.
Team, Q. (2024b). Qwen-qwq-32b Model Card and Documentation. Technical report, Alibaba Cloud.
Tran, A., Angelikas, K., Rama, E., Okechukwu, C., Smith, D. H., and MacNeil, S. (2023). Generating Multiple Choice Questions for Computing Courses Using Large Language Models. In 2023 IEEE Frontiers in Education Conference (FIE), pages 1–8. IEEE.
Wang, Z., Valdez, J., Basu Mallick, D., and Baraniuk, R. G. (2022). Towards humanlike educational question generation with large language models. In Lecture Notes in Computer Science, pages 153–166.
Xiao, C., Ma, W., Song, Q., Xu, S. X., Zhang, K., Wang, Y., and Fu, Q. (2024). Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs. arXiv.
Amyeen, R. (2023). Prompt-Engineering and Transformer-based Question Generation and Evaluation. arXiv.org.
Baral, S., Worden, E., Lim, W.-C., Luo, Z., Santorelli, C., Gurung, A., and Heffernan, N. (2024). Automated feedback in math education: A comparative analysis of llms for open-ended responses. arXiv. Pré-publicação.
de Amorim da Silva, A., Moreira, J. P., Silva, G. P. G., Cintra, J. P., and Ciferri, R. R. (2025). Anaquest: Uma ferramenta para geração e validação de questões de múltipla escolha com llms e teoria de resposta ao item. In Proceedings of the International Conference on Artificial Intelligence in Education (AIED), Brasil. Springer. No prelo.
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Technical Report arXiv:2501.12948v1, DeepSeek AI.
Denzin, N. K. (1978). The Research Act: A Theoretical Introduction to Sociological Methods. McGraw-Hill, New York, 2nd edition.
Estévez-Ayres, I., Callejo, P., Hombrados-Herrera, M. Á., Alario-Hoyos, C., and Delgado Kloos, C. (2024). Evaluation of LLM Tools for Feedback Generation in a Course on Concurrent Programming. International Journal of Artificial Intelligence in Education.
Hang, C. N., Wei Tan, C., and Yu, P.-D. (2024). Mcqgen: A Large Language Model-Driven MCQ Generator for Personalized Learning. IEEE Access, 12:102261–102273.
Jauhiainen, Nome do Primeiro Autor e Garagorry, N. d. S. A. (2024). Avaliação de respostas discursivas de estudantes com llms: uso do framework rag. arXiv. Pré-publicação.
Jia, N. d. P. A. e. o. (2024). Avaliando a fidelidade do feedback gerado por llms. In Anais do EDM 2024 – Educational Data Mining.
Koutcheme, C., Dainese, N., Sarsa, S., Hellas, A., Leinonen, J., and Denny, P. (2024). Open source language models can provide feedback: Evaluating llms’ ability to help students using gpt-4-as-a-judge. In Proceedings of the 2024 on Innovation and Technology in Computer Science Education, pages 52–58.
Li, K. and Zhang, Y. (2024). Planejamento primeiro, pergunta depois: Um método guiado por llms para geração controlável de questões. In Anais da ACL 2024 – Findings of the Association for Computational Linguistics, pages 4715–4729, Bangkok, Tailândia.
Maity, S. and Deroy, A. (2024). O futuro da aprendizagem na era da ia generativa: geração e avaliação automatizada de questões com grandes modelos de linguagem. arXiv. Pré-publicação.
Maity, S., Deroy, A., and Sarkar, S. (2023). Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models. In Proceedings of the 15th Annual Meeting of the Forum for Information Retrieval Evaluation, pages 30–39. ACM.
Mazzullo, N. d. P. A. and Bulut, N. d. S. A. (2024). Automated feedback generation for open-ended questions. In NeurIPS 2024.
Meyer, J., Jansen, T., Schiller, R., Liebenow, L. W., Steinbach, M., Horbach, A., and Fleckenstein, J. (2024). Using LLMs to bring evidence-based feedback into the class-room: Ai-generated feedback increases secondary students’ text revision, motivation, and positive emotions. Computers and Education: Artificial Intelligence, 6:100199.
Parker, N. d. P. A. e. o. (2024). Uma abordagem com grandes modelos de linguagem para análise de feedback em pesquisas educacionais. SpringerLink.
Scaria, N., Chenna, S. D., and Subramani, D. (2024a). Geração automatizada de questões educacionais nos diferentes níveis da taxonomia de bloom utilizando llms. arXiv. Pré-publicação.
Scaria, N., Chenna, S. D., and Subramani, D. (2024b). Quão bons são os llms modernos na geração de perguntas relevantes e de alta qualidade nos diferentes níveis da taxonomia de bloom para o currículo de ciências sociais do ensino médio na Índia? In Anais do 19º Workshop sobre Uso Inovador de PLN na Educação (BEA 2024), Cidade do México, México.
Scarlatos, A., Smith, D., Woodhead, S., and Lan, A. (2024). Improving the Validity of Automatically Generated Feedback via Reinforcement Learning, pages 280–294. Springer Nature Switzerland.
Schorcht, S., Buchholtz, N., and Baumanns, L. (2024). Prompt the problem – investigating the mathematics educational quality of AI-supported problem solving by comparing prompt techniques. Frontiers in Education, 9.
Team, G. (2024a). Gemma 2: Improving Open Language Models at a Practical Size. Technical Report arXiv:2408.00118v1, Google DeepMind.
Team, Q. (2024b). Qwen-qwq-32b Model Card and Documentation. Technical report, Alibaba Cloud.
Tran, A., Angelikas, K., Rama, E., Okechukwu, C., Smith, D. H., and MacNeil, S. (2023). Generating Multiple Choice Questions for Computing Courses Using Large Language Models. In 2023 IEEE Frontiers in Education Conference (FIE), pages 1–8. IEEE.
Wang, Z., Valdez, J., Basu Mallick, D., and Baraniuk, R. G. (2022). Towards humanlike educational question generation with large language models. In Lecture Notes in Computer Science, pages 153–166.
Xiao, C., Ma, W., Song, Q., Xu, S. X., Zhang, K., Wang, Y., and Fu, Q. (2024). Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs. arXiv.
Publicado
24/11/2025
Como Citar
QUINCOZES, Camilla B.; MOLINOS, Diego; ARAÚJO, Rafael D.; QUINCOZES, Silvio; GUEDES, Gilleanes T. A..
Engenharia de Prompt para a Geração Automatizada de Questões Assistida por LLMs: Uma Análise Comparativa. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 36. , 2025, Curitiba/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 1347-1360.
DOI: https://doi.org/10.5753/sbie.2025.12891.
