Geração de Corpus Sintético Sociolinguístico para Avaliação de Reconhecimento de Fala no Contexto Clínico Brasileiro

  • Ana Carla Sergina N. de Lima UFPB
  • Clauirton A. Siebra UFPB

Resumo


A documentação em prontuários eletrônicos consome tempo significativo do atendimento clínico, motivando o uso de sistemas de Reconhecimento Automático de Fala (ASR) para transcrição de consultas. No Brasil, o avanço dessas soluções é limitado pela escassez de bases públicas de interações médicas reais, devido a restrições éticas e legais. Este trabalho propõe um pipeline para geração de um corpus sintético de teleconsultas em português brasileiro com variabilidade cultural e linguística. Foram gerados 120 diálogos por meio de modelo de linguagem e convertidos em áudio com síntese neural de voz. Os resultados indicam que a inserção controlada de regionalismos permite analisar limitações de modelos generalistas, o que motiva o desenvolvimento de sistemas de transcrição clínica especializados para as diferenças regionais do contexto brasileiro.

Referências

Catapan, A. et al. (2020). Teleconsultation: Doctor–Patient Relationship. Revista Brasileira de Educação Médica.

Chen, R. J. et al. (2021). Synthetic data in machine learning for medicine and healthcare. Nature Biomedical Engineering, 5, 493–497.

Chen, R.; Lu, Y.; Wong, S. (2019). Generating Synthetic Electronic Health Records Using Generative Adversarial Networks. Journal of the American Medical Informatics Association, 26(8), 774–785. DOI: 10.1093/jamia/ocz094

Da Silva, D. F.; Freitas, E. P.; Souza, J. M. (2019). Automatic Speech Recognition for Brazilian Portuguese: A Survey of Approaches and Resources. Speech Communication, 114, 121–154.

Luo, X.; Zhou, L.; Adelgais, K.; Zhang, Z. (2025). Assessing the Effectiveness of Automatic Speech Recognition Technology in Emergency Medicine Settings: A Comparative Study of Four AI-powered Engines. Journal of Healthcare Informatics Research, 9(3), 494–512.

Lybarger, K. et al. (2023). Automatic Transcription and Structuring of Clinical Conversations. Journal of the American Medical Informatics Association.

Nguyen, D. P. et al. (2024). VietMedASR: A Vietnamese Medical Speech Recognition Corpus. In Proceedings of Interspeech 2024.

Peivandi, S.; Ahmadian, L.; Farokhzadian, J.; Jahani, Y. (2022). Evaluation and comparison of errors on nursing notes created by online and offline speech recognition technology and handwritten: an interventional study. BMC Medical Informatics and Decision Making, 22(1), 96.

Sanni, M. et al. (2025). Afrispeech-dialog: a benchmark dataset for spontaneous english conversations in healthcare and beyond. In Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) (pp. 8399-8417).

Sinsky, C. et al. (2016). Allocation of Physician Time in Ambulatory Practice: A Time and Motion Study in 4 Specialties. Annals of Internal Medicine, 165(11), 753–760.

Tran, B. D.; Mangu, R.; Tai-Seale, M.; Lafata, J. E.; Zheng, K. (2023). Automatic speech recognition performance for digital scribes: a performance comparison between general purpose and specialized models tuned for patient-clinician conversations. AMIA Annual Symposium Proceedings, 1072–1080.

Zolnoori, M. et al. (2024). Decoding disparities: evaluating automatic speech recognition system performance in transcribing Black and White patient verbal communication with nurses in home healthcare. JAMIA Open, 7(4), ooae130.
Publicado
01/06/2026
LIMA, Ana Carla Sergina N. de; SIEBRA, Clauirton A.. Geração de Corpus Sintético Sociolinguístico para Avaliação de Reconhecimento de Fala no Contexto Clínico Brasileiro. In: SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO APLICADA À SAÚDE (SBCAS), 26. , 2026, Ouro Preto/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 407-416. ISSN 2763-8952. DOI: https://doi.org/10.5753/sbcas.2026.21244.