Avaliação Automatizada de Relatórios Experimentais de Física com Gemini AI Studio: Um Relato de Experiência e Análise Comparativa

  • Tábata Caroline Gonçalves Mendes IFSP
  • Kenya Aparecida Alves IFSP

Resumo


Este relato de experiência compara a avaliação humana de relatórios experimentais de Física com uma avaliação automatizada utilizando Gemini AI Studio. Analisando quatro trabalhos de estudantes de Engenharia, o objetivo principal foi investigar a viabilidade e precisão da inteligência artificial como ferramenta de apoio à avaliação acadêmica. A IA mostrou-se precisa na detecção de problemas estruturais e conceituais. Foram desenvolvidos prompts estruturados utilizando técnicas de engenharia de prompt para orientar o Gemini AI Studio na avaliação dos relatórios. Os resultados revelaram que, embora a IA demonstre capacidade para identificar problemas estruturais e formais, a avaliação humana mostrou-se superior em análises contextuais e na interpretação conceitual. As significativas divergências encontradas nas notas finais, diferenças de até 80% entre avaliadores, evidenciam limitações importantes da abordagem automatizada, indicando que a supervisão pedagógica humana permanece indispensável para uma avaliação formativa adequada.

Referências

ARAÚJO, M. S. T., & ABIB, M. L. V. S. (2003). Atividades experimentais no ensino de física: diferentes enfoques, diferentes finalidades. Revista Brasileira de Ensino de Física, 25(2), 176-194. [link]. Junho.

BARRETO, R., & COSTA, T. S. (2017). A avaliação da aprendizagem no ensino superior: limites e possibilidades. Revista Práxis Educacional, 13(26), 109–130. [link].

BLACK, P., & WILIAM, D. (1998). Assessment and classroom learning. Assessment in Education: Principles, Policy & Practice, 5(1), 7-74. DOI: 10.1080/0969595980050102. Março.

BROWN, S., & KNIGHT, P. (2012). Assessing learners in higher education. Routledge. [link].

LIMA, R. M., et al. (2017). Desenvolvimento de competências em engenharia: uma abordagem baseada em projetos. Educação em Revista, 33, e172508. [link].

MOK, R., et al. (2024). Using AI Large Language Models for Grading in Education: A Hands-On Test for Physics. arXiv. [link].

NUNES, A. A., et al. (2021). Rubricas de avaliação como instrumento pedagógico: reflexões sobre equidade e aprendizagem significativa. Revista de Educação da Universidade Federal do Vale do São Francisco, 11(23), 153–171. [link].

REYNOLDS, L., & MCDONELL, K. (2021). Prompt programming for large language models: Beyond the few-shot paradigm. In Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems (pp. 1-7). [link].

WANG, X., et al. (2023). Self-consistency improves chain of thought reasoning in language models. In International Conference on Learning Representations (ICLR). [link].

WEI, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824–24837. [link].
Publicado
24/11/2025
MENDES, Tábata Caroline Gonçalves; ALVES, Kenya Aparecida. Avaliação Automatizada de Relatórios Experimentais de Física com Gemini AI Studio: Um Relato de Experiência e Análise Comparativa. In: WORKSHOP DE INFORMÁTICA NA ESCOLA (WIE), 31. , 2025, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 254-265. DOI: https://doi.org/10.5753/wie.2025.13512.