LLMs Não São Garantido - Avaliando LLMs: Métricas, Benchmarks, Técnicas Automáticas e Considerações Éticas

Resumo


Os rápidos avanços nos Large Language Models (LLMs) exigem metodologias de avaliação robustas e abrangentes para verificar suas capacidades, confiabilidade e segurança. Este tutorial avançado de 2 horas aprofundar-se-á na multifacetada paisagem da avaliação de LLMs, indo além das métricas tradicionais de PLN, para cobrir benchmarks modernos, abordagens com intervenção humana e técnicas de ponta como "LLM-as-a-Judge''. Discutiremos os desafios de avaliar comportamentos emergentes complexos, precisão factual, raciocínio e considerações éticas como viés e toxicidade. Os participantes obterão insights práticos sobre a seleção de estratégias de avaliação apropriadas e a compreensão das limitações dos métodos atuais, capacitando-os a avaliar criticamente o desempenho de LLMs em vários cenários do mundo real.
Palavras-chave: Avaliação de LLMs, Métricas tradicionais de PLN, Benchmarks modernos, LLM-as-a-Judge, Avaliação humana vs. automática

Referências

AISERA (2025). Llm evaluation: Key metrics, best practices and frameworks. [link]. Accessed July 2025.

Dierk, C., Healey, J., and Dogan, D. (2025). Evaluating llms in experiential context. In Workshop on Human-centered Evaluation and Auditing of Language Models (HEAL), CHI 2025.

Gao, M., Hu, X., Ruan, J., Pu, X., and Wan, X. (2025). Llm-based nlg evaluation: Current status and challenges.

Jiao, J., Afroogh, S., Xu, Y., and Phillips, C. (2025). Navigating llm ethics: Advancements, challenges, and future directions.

Mathur, N., Baldwin, T., and Cohn, T. (2020). Tangled up in BLEU: Reevaluating the evaluation of automatic machine translation evaluation metrics. In Jurafsky, D., Chai, J., Schluter, N., and Tetreault, J., editors, Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4984–4997, Online. Association for Computational Linguistics.

Meva, D. D. and Kukadiya, H. (2025). Performance evaluation of large language models: A comprehensive review. International Research Journal of Computer Science, 12:109–114.

Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X., and Gao, J. (2025). Large language models: A survey.

Peyrard, M. (2019). Studying summarization evaluation metrics in the appropriate scoring range. In Korhonen, A., Traum, D., and Màrquez, L., editors, Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5093–5100, Florence, Italy. Association for Computational Linguistics.
Publicado
29/09/2025
REAL, Livy; VIANNA, Daniela; CARVALHO, André Luiz da Costa; DA SILVA, Altigran Soares. LLMs Não São Garantido - Avaliando LLMs: Métricas, Benchmarks, Técnicas Automáticas e Considerações Éticas. In: TUTORIAIS - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 203-207. DOI: https://doi.org/10.5753/sbbd_estendido.2025.tutorial1.