Avaliação de Modelos de Linguagem para o Suporte à Decisão Médica na Atenção Primária Brasileira

Martony Demes da Silva

doi:10.5753/sbcas.2026.19470

Martony Demes da Silva CEAD

DOI: https://doi.org/10.5753/sbcas.2026.19470

Resumo

A integração de Modelos de Linguagem de Grande Escala (LLMs) à prática clínica oferece potencial para suporte à decisão, mas sua confiabilidade na Atenção Primária à Saúde (APS) no Brasil carece de investigação. Este estudo compara o GPT-4 e o Llama-3 usando casos de exames de residência médica brasileiros, analisando acurácia diagnóstica e ”alucinações de protocolo”sob uma perspectiva territorial. Resultados preliminares indicam que diretrizes internacionais frequentemente sobrepõem-se às normas do SUS. O trabalho identifica barreiras à implementação segura da IA generativa no contexto da saúde pública nacional.

Referências

Antaki, F. et al. (2023). Evaluating ChatGPT and GPT-4 performance on multiple-choice questions in ophthalmology. JAMA Ophthalmology.

Kung, T. H. et al. (2023). Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digital Health, 2(2):e0000198.

Ministério da Saúde (2024). Relação Nacional de Medicamentos Essenciais: RENAME 2024. Secretaria de Ciência, Tecnologia, Inovação e Insumos Estratégicos em Saúde, Brasília, DF.

Nori, H., King, N., McKinney, S. M., Erickson, F., and Horvitz, E. (2023). Can generalist foundation models outperform special-purpose tuning? case study in medicine. JMIR Medical Informatics, 11:e50638.

Paim, J., Travassos, C., Almeida, C., Bahia, L., and Macinko, J. (2011). O sistema de saúde brasileiro: história, avanços e desafios. The Lancet, 377(9779):1778–1797.

Sabbatini, R. M. E. (2023). A inteligência artificial na educação e prática médica: Desafios e oportunidades no brasil. In Anais do Simpósio Brasileiro de Computação Aplicada à Saúde (SBCAS), Porto Alegre, RS, Brasil. SBC.

Umapathi, K. K. et al. (2023). Benchmarking the diagnostic capability of GPT-4 on clinical case challenges. Journal of Medical Systems, 47(1):1–10.

Wang, S. et al. (2024). Med-Llama: Open-source large language models for medical applications. arXiv preprint arXiv:2401.00000.