Sumarização Multimodal de Diálogos Clínicos na Atenção Primária Digital: Integrando Mensagens Textuais e Áudios
Resumo
Plataformas de mensagens na saúde digital ampliaram o volume de interações, tornando a gestão e a recuperação de informações clínicas um desafio central na Atenção Primária Digital. Embora a sumarização automática de diálogos textuais com Grandes Modelos de Linguagem (LLMs) tenha sido explorada, parte relevante do diálogo ocorre por áudio. Assim, este trabalho propõe um pipeline multimodal para integrar fala e texto na sumarização com LLMs. Foi investigado (i) como extrair automaticamente informações clínicas de áudios com qualidade variável e (ii) o impacto dessa integração na qualidade do resumo. A metodologia foi desenvolvida a partir de 706 áudios reais, com base anotada manualmente e classificadores para filtrar transcrições inadequadas. Os resultados mostram que incorporar áudios enriquece os resumos, aumentando contextualização e detalhamento das informações clínicas.Referências
Anibal, J., Huth, Wood, B., et al. (2025). Voice EHR: introducing multimodal audio data for health. Frontiers in Digital Health.
Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). Smote: synthetic minority over-sampling technique. J. Artif. Int. Res.
Esquivel, P., Gill, K., Goldberg, M., Sundaram, S. A., Morris, L., and Ding, D. (2024). Voice assistant utilization among the disability community for independent living: A rapid review of recent evidence. Human Behavior and Emerging Technologies.
Ferreira, A. A., Rocha, L., et al. (2025). A comprehensive qualitative analysis of patient dialogue summarization using large language models applied to noisy, informal, non-english real-world data. Scientific Reports.
Hone, T., Rasella, D., Barreto, M. L., Majeed, A., and Millett, C. (2017). Association between expansion of primary healthcare and racial inequalities in mortality amenable to primary care in brazil: a national longitudinal analysis. PLoS medicine.
Keszthelyi, D., Gaudet-Blavignac, C., Bjelogrlic, M., and Lovis, C. (2023). Patient information summarization in clinical settings: Scoping review. JMIR Medical Informatics.
Liu, S., McCoy, A. B., Wright, A., et al. (2024). Leveraging large language models for generating responses to patient messages-a subjective analysis. JAMIA.
Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). Smote: synthetic minority over-sampling technique. J. Artif. Int. Res.
Esquivel, P., Gill, K., Goldberg, M., Sundaram, S. A., Morris, L., and Ding, D. (2024). Voice assistant utilization among the disability community for independent living: A rapid review of recent evidence. Human Behavior and Emerging Technologies.
Ferreira, A. A., Rocha, L., et al. (2025). A comprehensive qualitative analysis of patient dialogue summarization using large language models applied to noisy, informal, non-english real-world data. Scientific Reports.
Hone, T., Rasella, D., Barreto, M. L., Majeed, A., and Millett, C. (2017). Association between expansion of primary healthcare and racial inequalities in mortality amenable to primary care in brazil: a national longitudinal analysis. PLoS medicine.
Keszthelyi, D., Gaudet-Blavignac, C., Bjelogrlic, M., and Lovis, C. (2023). Patient information summarization in clinical settings: Scoping review. JMIR Medical Informatics.
Liu, S., McCoy, A. B., Wright, A., et al. (2024). Leveraging large language models for generating responses to patient messages-a subjective analysis. JAMIA.
Publicado
01/06/2026
Como Citar
REIS, Davi; FERREIRA, Anderson A.; CUNHA, Washington; MACUL, Victor; NETO, Olivio; ALMEIDA, Jussara; ROCHA, Leonardo; GONÇALVES, Marcos André.
Sumarização Multimodal de Diálogos Clínicos na Atenção Primária Digital: Integrando Mensagens Textuais e Áudios. In: SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO APLICADA À SAÚDE (SBCAS), 26. , 2026, Ouro Preto/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 1367-1372.
ISSN 2763-8952.
DOI: https://doi.org/10.5753/sbcas.2026.21379.
