Utilização de modelos BERT em língua portuguesa para predição de códigos CID em contexto neonatal

Ricardo da S. Santos; Murilo G. Gazzola; Renato T. Souza; Rodolfo C. Pacagnella; Cristiano Torezzan

doi:10.5753/sbcas.2024.2802

Ricardo da S. Santos UNICAMP
Murilo G. Gazzola MACKENZIE
Renato T. Souza UNICAMP
Rodolfo C. Pacagnella UNICAMP
Cristiano Torezzan UNICAMP

DOI: https://doi.org/10.5753/sbcas.2024.2802

Resumo

A tarefa de prever códigos da Classificação Internacional de Doenças (CID) representa um desafio contemporâneo de pesquisa na área de inteligência artificial aplicada à saúde. Essa abordagem é vista como uma solução promissora para otimizar tarefas recorrentes de registros clínicos, aumentar a precisão de diagnósticos e aprimorar a tomada de decisões médicas. Uma previsão acurada de códigos CID pode permitir agilizar e automatizar processos administrativos em ambientes de saúde e contribuir para uma medicina mais personalizada e eficaz. Apesar da relevância desse tema, ainda existem poucas pesquisas para a predição do código CID em português brasileiro. Neste contexto, este trabalho apresenta resultados preliminares de uma pesquisa que está em desenvolvimento, com objetivo de treinar algoritmos para a predição de códigos CID no contexto da atenção primária neonatal, com foco na previsão dos códigos CID em admissões e relatórios de alta de internações pediátricas de recémnascidos. Os algoritmos utilizam modelos baseados em BERT - Representações Codificadoras Bidirecionais de Transformadores e os resultados preliminares indicam que o caminho é promissor, mas ainda há necessidade de ajustes para que se tenha uma aplicação que possa ser utilizada na prática clínica.

Referências

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics.

de Lima, L. R., Laender, A. H., and Ribeiro-Neto, B. A. (1998). An experimental study in automatically categorizing medical documents. In Journal of the American Society for Information Science and Technology, CIKM ’98, Nova York, NY, EUA.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), Minneapolis, Minnesota. Association for Computational Linguistics.

Duarte, F., Martins, B., Pinto, C. S., and Silva, M. J. (2018). Deep neural models for icd-10 coding of death certificates and autopsy reports in free-text. Journal of biomedical informatics, 80.

Farkas, R. and Szarvas, G. (2008). Automatic construction of rule-based ICD-9-CM coding systems. BMC Bioinformatics, 9(3).

Larkey, L. S. and Croft, W. B. (1995). Automatic assignment of icd9 codes to discharge summaries. In Proceedings of the Annual Meeting of the American Medical Informatics Association.

Nguyen, T. T., Schlegel, V., Kashyap, A. R., and Winkler, S. (2023). A two-stage decoder for efficient icd coding. In Annual Meeting of the Association for Computational Linguistics.

Oleynik, M., Patrão, D. F. C., and Finger, M. (2017). Automated classification of semi-structured pathology reports into icd-o using svm in portuguese. Studies in health technology and informatics, 235.

Pakhomov, S. V. S., Buntrock, J. D., and Chute, C. G. (2006). Automating the assignment of diagnosis codes to patient encounters using example-based and machine learning techniques. Journal of the American Medical Informatics Association.

Reys, A. D., Silva, D., Severo, D., Pedro, S., de Sousa e Sá, M. M., and Salgado, G. A. C. (2020). Predicting multiple icd-10 codes from brazilian-portuguese clinical notes. In Intelligent Systems, Cham. Springer International Publishing.

Schneider, E. T. R., de Souza, J. V. A., Knafou, J., Oliveira, L. E. S. e., Copara, J., Gumiel, Y. B., Oliveira, L. F. A. d., Paraiso, E. C., Teodoro, D., and Barra, C. M. C. (2020). BioBERTpt - a Portuguese neural language model for clinical named entity recognition. In Proceedings of the 3rd Clinical Natural Language Processing Workshop.

Soroush, A., Glicksberg, B. S., Zimlichman, E., Barash, Y., Freeman, R., Charney, A. W., Nadkarni, G. N., and Klang, E. (2024). Large language models are poor medical coders — benchmarking of medical code querying. NEJM AI, 1(5):AIdbp2300040.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Intelligent Systems, Cham. Springer International Publishing.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L. u., and Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, volume 30. Curran Associates, Inc.

Whiteley, W. et al. (2022). Automated clinical coding: what, why, and where we are? npj Digital Medicine, 5(1):159.