Uma análise de qualidade do uso de grandes modelos de linguagem para geração automática de itens avaliativos em português

  • João Vítor de Castro Martins Ferreira Nogueira UFJF / Fundação CAEd
  • João Augusto Pilato de Castro UFJF / Fundação CAEd
  • Lucas O. Larcher UFJF / Fundação CAEd
  • Rosângela Veiga Júlio Ferreira UFJF / Fundação CAEd
  • Begma Tavares Barbosa UFJF / Fundação CAEd
  • Jairo Francisco de Souza UFJF / Fundação CAEd

Resumo


A avaliação educacional cumpre um papel fundamental no acompanhamento da qualidade da educação. A criação e elaboração manual de itens de prova é uma tarefa custosa e altamente especializada, e o uso de grandes modelos de linguagem (LLM) tem se tornado uma solução popular na área de geração automática de itens (AIG). Este estudo realiza uma analisa qualitativa e quantitativa do uso das LLMs de propósito geral na geração de itens em Língua Portuguesa para uso em avaliações brasileiras em larga escala, os quais possuem requisitos bem definidos para sua construção e verificação de qualidade. Os resultados demonstram que tecnologias atuais não são capazes de resolver completamente o problema e que há desafios de pesquisa nesta área.

Referências

Amorim, M., Simões, J., Assis, F., Pinheiro, J., Menasch, D., Motta, C., and Pacheco, A. (2019). Aumentando a interatividade no ensino a distância via geração automática de questões: Desafios, soluções via aprendizado por máquina e um estudo de caso no cederj. In Anais do XXVII Workshop sobre Educação em Computação, pages 188–202, Porto Alegre, RS, Brasil. SBC.

Awalurahman, H. W. and Budi, I. (2024). Automatic distractor generation in multiple-choice questions: a systematic literature review. PeerJ Computer Science, 10:e2441.

Bezirhan, U. and von Davier, M. (2023). Automated reading passage generation with openai’s large language model. Computers and Education: Artificial Intelligence, 5:100161.

Bollela, V. R., Borges, M. d. C., and Troncon, L. E. d. A. (2018). title = Avaliação Somativa de Habilidades Cognitivas: Experiência Envolvendo Boas Práticas para a Elaboração de Testes de Múltipla Escolha e a Composição de Exames,. Revista Brasileira de Educação Médica, 42:74 – 85.

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. (2020). Language models are few-shot learners.

Circi, R., Hicks, J., and Sikali, E. (2023). Automatic item generation: foundations and machine learning-based approaches for assessments. In Frontiers in Education, volume 8, page 858273. Frontiers Media SA.

Gierl, M. J. and Lai, H. (2018). Using automatic item generation to create solutions and rationales for computerized formative testing. Applied Psychological Measurement, 42(1):42–57. PMID: 29881111.

Gierl, M. J., Lai, H., and Tanygin, V. (2021). Advanced methods in automatic item generation. Routledge.

Greaney, V. and Kellaghan, T. (2008). Assessing national achievement levels in education, volume 1. World Bank Publications.

Haladyna, T. M. (2004). Developing and validating multiple-choice test items. Routledge.

Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., and Iwasawa, Y. (2023). Large language models are zero-shot reasoners.

Lee, J., Smith, D., Woodhead, S., and Lan, A. (2024). Math multiple choice question generation via human-large language model collaboration. arXiv preprint arXiv:2405.00864.

Lin, Z. and Chen, H. (2024). Investigating the capability of chatgpt for generating multiple-choice reading comprehension items. System, 123:103344.

Maity, S., Deroy, A., and Sarkar, S. (2024). Investigating large language models for prompt-based open-ended question generation in the technical domain. SN Computer Science, 5(8):1128.

Palacios, C. and de Oliveira, L. K. M. (2022). Avaliação da educação básica e seus instrumentos. Carlos Palacios Carvalho da Cunha e Melo.

Richichi, R. V. (1996). An analysis of test bank multiple-choice items using item response theory.

Rockembach, G. and Thom, L. (2024). Investigating the use of intelligent tutors based on large language models: Automated generation of business process management questions using the revised bloom’s taxonomy. In Anais do XXXV Simpósio Brasileiro de Informática na Educação, pages 1587–1601, Porto Alegre, RS, Brasil. SBC.

Scaria, N., Dharani Chenna, S., and Subramani, D. (2024). Automated educational question generation at different bloom’s skill levels using large language models: Strategies and evaluation. In Olney, A. M., Chounta, I.-A., Liu, Z., Santos, O. C., and Bittencourt, I. I., editors, Artificial Intelligence in Education, pages 165–179, Cham. Springer Nature Switzerland.

Setiawan, H., Hidayah, I., and Kusumawardani, S. S. (2022). Automatic item generation with reading passages: A systematic literature review. In 2022 8th International Conference on Education and Technology (ICET), pages 250–255.

Silva, M. M. d. S., Reihn, C., Soares, A., and Soares, T. M. (2016). A abordagem da avaliação educacional em larga escala nos cursos de graduação em pedagogia. Revista Brasileira de Estudos Pedagógicos, 97(245):46–67.

Song, Y., Du, J., and Zheng, Q. (2025). Automatic item generation for educational assessments: a systematic literature review. Interactive Learning Environments, pages 1–20.

Team, G., Anil, R., Borgeaud, S., Alayrac, J.-B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A. M., Hauth, A., Millican, K., et al. (2023). Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805.

Wang, L., Song, R., Guo, W., and Yang, H. (2024). Exploring prompt pattern for generative artificial intelligence in automatic question generation. Interactive Learning Environments, pages 1–26.

Zimerman, F., Duarte, F. H., Silva, P. H., and Fortes, R. (2024). Explorando chatgpt para criação automática de questões práticas de programação de computadores. In Anais do XXXV Simpósio Brasileiro de Informática na Educação, pages 2353–2364, Porto Alegre, RS, Brasil. SBC.
Publicado
24/11/2025
NOGUEIRA, João Vítor de Castro Martins Ferreira; CASTRO, João Augusto Pilato de; LARCHER, Lucas O.; FERREIRA, Rosângela Veiga Júlio; BARBOSA, Begma Tavares; SOUZA, Jairo Francisco de. Uma análise de qualidade do uso de grandes modelos de linguagem para geração automática de itens avaliativos em português. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 36. , 2025, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 234-247. DOI: https://doi.org/10.5753/sbie.2025.12210.