Sumarização Multimodal de Diálogos Clínicos na Atenção Primária Digital: Integrando Mensagens Textuais e Áudios

Davi Reis; Anderson A. Ferreira; Washington Cunha; Victor Macul; Olivio Neto; Jussara Almeida; Leonardo Rocha; Marcos André Gonçalves

doi:10.5753/sbcas.2026.21379

Davi Reis UFMG
Anderson A. Ferreira UFOP
Washington Cunha UNICAMP
Victor Macul Ana Health
Olivio Neto Ana Health
Jussara Almeida UFMG
Leonardo Rocha UFSJ
Marcos André Gonçalves UFMG

DOI: https://doi.org/10.5753/sbcas.2026.21379

Resumo

Plataformas de mensagens na saúde digital ampliaram o volume de interações, tornando a gestão e a recuperação de informações clínicas um desafio central na Atenção Primária Digital. Embora a sumarização automática de diálogos textuais com Grandes Modelos de Linguagem (LLMs) tenha sido explorada, parte relevante do diálogo ocorre por áudio. Assim, este trabalho propõe um pipeline multimodal para integrar fala e texto na sumarização com LLMs. Foi investigado (i) como extrair automaticamente informações clínicas de áudios com qualidade variável e (ii) o impacto dessa integração na qualidade do resumo. A metodologia foi desenvolvida a partir de 706 áudios reais, com base anotada manualmente e classificadores para filtrar transcrições inadequadas. Os resultados mostram que incorporar áudios enriquece os resumos, aumentando contextualização e detalhamento das informações clínicas.

Referências

Anibal, J., Huth, Wood, B., et al. (2025). Voice EHR: introducing multimodal audio data for health. Frontiers in Digital Health.

Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). Smote: synthetic minority over-sampling technique. J. Artif. Int. Res.

Esquivel, P., Gill, K., Goldberg, M., Sundaram, S. A., Morris, L., and Ding, D. (2024). Voice assistant utilization among the disability community for independent living: A rapid review of recent evidence. Human Behavior and Emerging Technologies.

Ferreira, A. A., Rocha, L., et al. (2025). A comprehensive qualitative analysis of patient dialogue summarization using large language models applied to noisy, informal, non-english real-world data. Scientific Reports.

Hone, T., Rasella, D., Barreto, M. L., Majeed, A., and Millett, C. (2017). Association between expansion of primary healthcare and racial inequalities in mortality amenable to primary care in brazil: a national longitudinal analysis. PLoS medicine.

Keszthelyi, D., Gaudet-Blavignac, C., Bjelogrlic, M., and Lovis, C. (2023). Patient information summarization in clinical settings: Scoping review. JMIR Medical Informatics.

Liu, S., McCoy, A. B., Wright, A., et al. (2024). Leveraging large language models for generating responses to patient messages-a subjective analysis. JAMIA.

Sumarização Multimodal de Diálogos Clínicos na Atenção Primária Digital: Integrando Mensagens Textuais e Áudios

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)