Avaliação de Aplicações de Geração Aumentada de Recuperação por meio de Feedback Implícito

Alessandro Marinho de Albuquerque; Igor May Wensing; Nelson Luiz Joppi Filho; Carina Dorneles

doi:10.5753/sbbd_estendido.2024.243903

Alessandro Marinho de Albuquerque Universidade Federal de Santa Catarina (UFSC) http://orcid.org/0000-0003-0217-9705
Igor May Wensing Tribunal de Contas de Santa Catarina (TCE-SC)
Nelson Luiz Joppi Filho Universidade Federal de Santa Catarina (UFSC)
Carina Dorneles Universidade Federal de Santa Catarina (UFSC)

DOI: https://doi.org/10.5753/sbbd_estendido.2024.243903

Resumo

Em um cenário de evolução dos últimos anos dos modelos grandes de linguagem, com o surgimento de um nicho de mercado específico, aplicações corporativas começaram a surgir e se tornar estratégicas. Contudo, em cenários corporativos, a necessidade de avaliar os resultados dessas aplicações se torna crítica. Como saber se um modelo é melhor que outro? Como saber se o prompt ou a pergunta pode ser melhorado? Como realizar o diagnóstico de erros? Este artigo aborda uma nova proposta de feedback implícito em arquiteturas de Geração Aumentada de Recuperação (RAG). Os resultados demonstram potencial da proposta aplicado no VigIA, uma aplicação RAG que detecta irregularidades em documentos públicos.

Palavras-chave: Modelos grandes de linguagem, Detecção de Fraude, Licitações

Referências

Finardi, P., Avila, L., Castaldoni, R., Gengo, P., Larcher, C., Piau, M., ... & Caridá, V. (2024). “The Chronicles of RAG: The Retriever, the Chunk and the Generator”. arXiv preprint arXiv:2401.07883.

Rodrigues Cássio S, Cardoso, Geovane E., Ramos, Vinicius F. C. “Inteligência artificial no controle de sobrepreço em compras públicas”. Revista do Tribunal de Contas de Santa Catarina. Belo Horizonte. Ano 2. Número 2, p 225-252, nov. 2023/abr. 2024.

Gao, M., Hu, X., Ruan, J., Pu, X., & Wan, X. (2024). “Llm-based nlg evaluation: Current status and challenges”. arXiv preprint arXiv:2402.01383.Dyer, S., Martin, J. and Zulauf, J. (1995) “Motion Capture White Paper”, [link], December.

Huang, H., Qu, Y., Liu, J., Yang, M., & Zhao, T. (2024). “An empirical study of llm-as-a-judge for llm evaluation: Fine-tuned judge models are task-specific classifiers”. arXiv preprint arXiv:2403.02839.

OpenAI, “Moving AI governance forward”. Disponível em: [link]. Acesso em: 02/06/2024.

Reddy, S., Rogers, W., Makinen, V. P., Coiera, E., Brown, P., Wenzel, M., ... & Kelly, B. (2021). “Evaluation framework to guide implementation of AI systems into healthcare settings”. BMJ health & care informatics, 28(1).

Shankar, S., Zamfirescu-Pereira, J. D., Hartmann, B., Parameswaran, A. G., & Arawjo, I. (2024). “Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences”. arXiv preprint arXiv:2404.12272.

Stahl, B. C., Antoniou, J., Bhalla, N., Brooks, L., Jansen, P., Lindqvist, B., ... & Wright, D. (2023). “A systematic review of artificial intelligence impact assessments”. Artificial Intelligence Review, 56(11), 12799-12831.

Yu, H., Gan, A., Zhang, K., Tong, S., Liu, Q., & Liu, Z. (2024). “Evaluation of Retrieval-Augmented Generation: A Survey”. arXiv preprint arXiv:2405.07437.