Uma Abordagem Baseada em Simulação com Grandes Modelos de Linguagem para Validação de Dificuldade de Questões do ENEM a partir da TRI

  • Jéssica Alves de Souza UFRPE
  • Ebony Rodrigues UFRPE
  • Roberta Gouveia UFRPE
  • Gabriel Alves UFRPE

Resumo


A criação de questões avaliativas é uma tarefa complexa, especialmente na definição do nível de dificuldade. Este trabalho propõe o uso de Grandes Modelos de Linguagem (LLMs) para estimar o parâmetro de dificuldade b da Teoria de Resposta ao Item (TRI) em questões do ENEM. Os LLMs simulam respostas de estudantes com diferentes habilidades, permitindo calcular b e comparar com os parâmetros conhecidos de questões do ENEM. Diferentes prompts foram testados, e um deles apresentou resultados promissores estimando b apenas com base no texto e alternativas da questão. As métricas de erro indicaram pequenas discrepâncias, sem comprometer a classificação em níveis de dificuldade, com acurácia acima dos 50%, para os 3 níveis de dificuldade. A análise mostrou que a estratégia é viável para avaliação automatizada da dificuldade.

Referências

Andrade, D. F. d., Tavares, H. R., and Valle, R. C. (2000). Teoria da Resposta ao Item: Conceitos e Aplicações. Associação Brasileira de Estatística, São Paulo.

Baker, F. B. (2001). The basics of item response theory. ERIC.

Benedetto, L., Aradelli, G., Donvito, A., Lucchetti, A., Cappelli, A., and Buttery, P. (2024). Using llms to simulate students’ responses to exam questions. In Findings of the Association for Computational Linguistics: EMNLP 2024, pages 11351–11368.

Bussab, W. d. O. and Morettin, P. A. (2017). Estatística básica. Saraiva Educação, São Paulo, 9 edition.

Chen, C. H. and Shiu, M. F. (2025). Kaqg: A knowledge-graph-enhanced rag for difficulty-controlled question generation. arXiv preprint arXiv:2505.07618.

Hambleton, R. K., Swaminathan, H., and Rogers, H. J. (1991). Fundamentals of item response theory. Sage Publications, Inc, Newbury Park, CA.

Hyndman, R. J. and Athanasopoulos, G. (2018). Forecasting: Principles and Practice. OTexts, Melbourne, Australia, 2nd edition. URL: [link].

Jain, Y., Hollander, J., He, A., Tang, S., Zhang, L., and Sabatini, J. (2025). Exploring the potential of large language models for estimating the reading comprehension question difficulty. arXiv.org.

Kurdi, G., Leo, J., Parsia, B., Sattler, U., and Al-Emari, S. (2020). A systematic review of automatic question generation for educational purposes. International Journal of Artificial Intelligence in Education.

Liu, Y., Bhandari, S., and Pardos, Z. A. (2025). Leveraging llm respondents for item evaluation: A psychometric analysis. British Journal of Educational Technology, 56(3):1028–1052.

Marinho, W., Clua, E. W., Martí, L., and Marinho, K. (2023). Predicting item response theory parameters using question statements texts. International Conference on Learning Analytics and Knowledge.

Mulla, N. and Gharpure, P. (2023). Automatic question generation: a review of methodologies, datasets, evaluation metrics, and applications. Progress in Artificial Intelligence.

Ogbonna, J. and Opara, I. (2018). Estimating standard errors of irtparameters of mathematics achievement test using three parameter model. IOSR Journal of Research & Method in Education (IOSR-JRME), 8(2):01–07.

Tomikawa, Y. and Uto, M. (2024). Difficulty-controllable multiple-choice question generation for reading comprehension using item response theory. In AIED Companion.
Publicado
25/11/2025
SOUZA, Jéssica Alves de; RODRIGUES, Ebony; GOUVEIA, Roberta; ALVES, Gabriel. Uma Abordagem Baseada em Simulação com Grandes Modelos de Linguagem para Validação de Dificuldade de Questões do ENEM a partir da TRI. In: WORKSHOP DE APLICAÇÕES PRÁTICAS DE LEARNING ANALYTICS E INTELIGÊNCIA ARTIFICIAL NO BRASIL (WAPLA), 3. , 2025, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 91-99. DOI: https://doi.org/10.5753/wapla.2025.16245.