Extração de Sinais Vitais em Textos Clínicos usando LLMs
Resumo
Este trabalho analisa comparativamente modelos de linguagem para reconhecimento de entidades nomeadas (REN) em textos clínicos em português, focando na identificação de sinais vitais. Utilizando 320 registros de enfermagem do Hospital Geral de Fortaleza, anotados com cinco categorias de sinais vitais, avaliamos BioBERTpt, Clinical-LLaMA-BR-7b e NuExtract 1.5. Métricas como acurácia, precisão, revocação e F1-score foram empregadas. O NuExtract demonstrou desempenho superior, com acurácia acima de 0,89 para todas as entidades e distribuição consistente com o ground truth. O BioBERTpt apresentou limitações de sobreposição, e o Clinical-LLaMA-BR-7b, tendência à alucinação.
Referências
Churpek, M. M., Adhikari, R., and Edelson, D. P. (2016). The value of vital sign trends for detecting clinical deterioration on the wards. Resuscitation, 102:1–5.
Clinical-BR-LlaMA-2-7B (2024). Acesso em 12 jan. 2025.
COFEN (2015). Guia de Recomendações para Registro de Enfermagem no Prontuário do Paciente e outros Documentos de Enfermagem. Conselho Federal de Enfermagem, Brasília. Versão Web.
COFEN (2024). Resolução cofen nº 736 de 17 de janeiro de 2024. Dispõe sobre a implementação do Processo de Enfermagem em todo contexto socioambiental onde ocorre o cuidado de enfermagem.
Cripwell, L., Constantin, A., and Bernard, E. (2024). Nuextract 1.5 - multilingual, infinite context, still small, and better than gpt-4o! Demner-Fushman, D., Chapman, W. W., and McDonald, C. J. (2009). What can natural language processing do for clinical decision support? J Biomed Inform, 42(5):760– 772.
Izbicki, R. and Santos, T. M. d. (2020). Aprendizado de máquina: uma abordagem estatística. Rafael Izbicki, São Carlos, SP.
Luo, R. et al. (2022). Biogpt: generative pre-trained transformer for biomedical text generation and mining. Briefings in bioinformatics, 23(6):bbac409.
Nadeau, D. (2007). Semi-Supervised Named Entity Recognition: Learning to Recognize 100 Entity Types with Little Supervision. Tese de doutorado, University of Ottawa.
Schneider, E. T. R. et al. (2020). Biobertpt: a portuguese neural language model for clinical named entity recognition. In Proceedings of the 3rd Clinical Natural Language Processing Workshop.
Schneider, E. T. R. et al. (2021). A gpt-2 language model for biomedical texts in portuguese. In 2021 IEEE 34th international symposium on computer-based medical systems (CBMS), pages 474–479. IEEE.
Song, B., Li, F., Liu, Y., and Zeng, X. (2021). Deep learning methods for biomedical named entity recognition: a survey and qualitative comparison. Briefings in Bioinformatics, 22(6):1–18.
Torres, A. M. N., Bersot, R. P. M., and Colombo, C. d. S. (2024). A extração de entidades nomeadas em relatos de casos clínicos. In Anais do XX Congresso Brasileiro de Informática em Saúde, Belo Horizonte, MG. Sociedade Brasileira de Informática em Saúde.
Touvron, H., Martin, L., Stone, K., Albert, P., et al. (2023). Llama 2: Open foundation and fine-tuned chat models.
Vaswani, A. et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Wang, B., Xie, Q., Pei, J., Chen, Z., Tiwari, P., Li, Z., and Fu, J. (2023). Pre-trained language models in biomedical domain: A systematic survey. ACM Computing Surveys, 56(3):1–52.
Yadav, V. and Bethard, S. (2018). A survey on recent advances in named entity recognition from deep learning models. Proceedings of the 27th International Conference on Computational Linguistics, pages 2145–2158.
