Avaliação de Aplicações de Geração Aumentada de Recuperação por meio de Feedback Implícito
Resumo
Em um cenário de evolução dos últimos anos dos modelos grandes de linguagem, com o surgimento de um nicho de mercado específico, aplicações corporativas começaram a surgir e se tornar estratégicas. Contudo, em cenários corporativos, a necessidade de avaliar os resultados dessas aplicações se torna crítica. Como saber se um modelo é melhor que outro? Como saber se o prompt ou a pergunta pode ser melhorado? Como realizar o diagnóstico de erros? Este artigo aborda uma nova proposta de feedback implícito em arquiteturas de Geração Aumentada de Recuperação (RAG). Os resultados demonstram potencial da proposta aplicado no VigIA, uma aplicação RAG que detecta irregularidades em documentos públicos.
Referências
Rodrigues Cássio S, Cardoso, Geovane E., Ramos, Vinicius F. C. “Inteligência artificial no controle de sobrepreço em compras públicas”. Revista do Tribunal de Contas de Santa Catarina. Belo Horizonte. Ano 2. Número 2, p 225-252, nov. 2023/abr. 2024.
Gao, M., Hu, X., Ruan, J., Pu, X., & Wan, X. (2024). “Llm-based nlg evaluation: Current status and challenges”. arXiv preprint arXiv:2402.01383.Dyer, S., Martin, J. and Zulauf, J. (1995) “Motion Capture White Paper”, [link], December.
Huang, H., Qu, Y., Liu, J., Yang, M., & Zhao, T. (2024). “An empirical study of llm-as-a-judge for llm evaluation: Fine-tuned judge models are task-specific classifiers”. arXiv preprint arXiv:2403.02839.
OpenAI, “Moving AI governance forward”. Disponível em: [link]. Acesso em: 02/06/2024.
Reddy, S., Rogers, W., Makinen, V. P., Coiera, E., Brown, P., Wenzel, M., ... & Kelly, B. (2021). “Evaluation framework to guide implementation of AI systems into healthcare settings”. BMJ health & care informatics, 28(1).
Shankar, S., Zamfirescu-Pereira, J. D., Hartmann, B., Parameswaran, A. G., & Arawjo, I. (2024). “Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences”. arXiv preprint arXiv:2404.12272.
Stahl, B. C., Antoniou, J., Bhalla, N., Brooks, L., Jansen, P., Lindqvist, B., ... & Wright, D. (2023). “A systematic review of artificial intelligence impact assessments”. Artificial Intelligence Review, 56(11), 12799-12831.
Yu, H., Gan, A., Zhang, K., Tong, S., Liu, Q., & Liu, Z. (2024). “Evaluation of Retrieval-Augmented Generation: A Survey”. arXiv preprint arXiv:2405.07437.