Avaliação de Correções de Inteligência Artificial Generativa no Processo de Escrita de Redações aplicadas ao Exame Nacional do Ensino Médio (ENEM)

  • Adrielly Mirella Paixão IFRN
  • Marcelo Damasceno de Melo IFRN

Resumo


Este trabalho avalia a eficácia de IAs Generativas (ChatGPT e Gemini) ao corrigir redações, seguindo o modelo de correção do Exame Nacional do Ensino Médio (ENEM). A metodologia consistiu na coleta de 338 redações do UOL que foram avaliadas conforme os critérios do exame. Os modelos pontuaram as redações com base na Competência I e III do ENEM. As notas atribuídas pelo corretor humano foram então comparadas às notas geradas pelo modelo. Os resultados, baseados nas métricas QWK e MAE, indicaram que as IAs Generativas não atingem desempenho satisfatório e que são sensíveis ao prompt utilizado. No entanto, elas podem atuar como ferramenta complementar para estudantes sem acesso a corretores humanos.

Referências

Andrade, C. Y. (2012). Acesso ao ensino superior no Brasil: equidade e desigualdade social. Revista Ensino Superior Unicamp, 6, 18-27.

Baidoo-Anu, D. and Ansah, L. O. (2023). Education in the era of generative artificial intelligence (AI): Understanding the potential benefits of ChatGPT in promoting teaching and learning. Journal of AI, 7(1), 52-62.

INEP. (2024). A redação no Enem 2024: Cartilha do participante. Brasília, DF: INEP. [link]

Cotton, D. R., Cotton, P. A., and Shipway, J. R. (2024). Chatting and cheating: Ensuring academic integrity in the era of ChatGPT. Innovations in education and teaching international, 61(2), 228-239.

da Silva Júnior, J. A. (2021). Um avaliador automático de redações. Dissertação de Mestrado, Universidade Federal do Espírito Santo.

Doewes, A., Kurdhi, N., & Saxena, A. (2023, July). Evaluating quadratic weighted kappa as the standard performance metric for automated essay scoring. In 16th International Conference on Educational Data Mining, EDM 2023 (pp. 103-113). International Educational Data Mining Society (IEDMS).

Harry, A. (2023). Role of AI in Education. Interdiciplinary Journal & Hummanity (INJURITY), 2(3).

Hodson, T. O. (2022). Root mean square error (RMSE) or mean absolute error (MAE): When to use them or not. Geoscientific Model Development Discussions, 2022, 1-10.

Jalil, S. et al. (2023). Chatgpt and software testing education: Promises & perils. In: 2023 IEEE international conference on software testing, verification and validation workshops (ICSTW), pages 4130-4137. IEEE.

Jovanović, M. and Campbell, M. (2022). Generative artificial intelligence: Trends and prospects. In Computer, pages 107-112, vol. 55.

Junqueira, R. D., Martins, D. A., & Lacerda, C. B. F. (2017). Política de acessibilidade e exame nacional do ensino médio (ENEM). Educação & Sociedade, 38, 453-471.

Li, M., Gao, Q., & Yu, T. (2023). Kappa statistic considerations in evaluating inter-rater reliability between two raters: which, when and context matters. BMC cancer, 23(1), 799.

Lucena, J. P. O. and Santos, H. N. L. (2020). A relação entre desempenho no Exame Nacional do Ensino Médio e o perfil socioeconômico: um estudo com os microdados de 2016. Revista de Gestão e Secretariado, 11(2), 1–23.

Mizumoto, A. and Eguchi, M. (2023). Exploring the potential of using an AI language model for automated essay scoring. Research Methods in Applied Linguistics, 2(2), 100050.

Nazari, N., Shabbir, M. S. and Setiawan, R. (2021). Application of Artificial Intelligence powered digital writing assistant in higher education: randomized controlled trial. Heliyon, 7(5).

Rudolph, J., Tan, S. and Tan, S. (2023). ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?. Journal of applied learning and teaching, 6(1), 342-363.

Secretaria de Comunicação Social. (2025). Enem 2024: Resultados mostram crescimento na adesão e na média das notas. Governo do Brasil. [link].

Willmott, C. J., & Matsuura, K. (2005). Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance. Climate research, 30(1), 79-82.
Publicado
09/09/2025
PAIXÃO, Adrielly Mirella; MELO, Marcelo Damasceno de. Avaliação de Correções de Inteligência Artificial Generativa no Processo de Escrita de Redações aplicadas ao Exame Nacional do Ensino Médio (ENEM). In: CONGRESSO SOBRE TECNOLOGIAS NA EDUCAÇÃO (CTRL+E), 9. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 62-71. DOI: https://doi.org/10.5753/ctrle.2025.12151.