SaudeBR-QA: Um Córpus de Perguntas e Respostas para o Domínio da Saúde em Português Brasileiro

Carlos Henrique S. Barros; Gustavo F. Rodrigues de Sousa; Rogério F. de Sousa

doi:10.5753/ercemapi.2025.17571

Carlos Henrique S. Barros IFPI
Gustavo F. Rodrigues de Sousa IFPI
Rogério F. de Sousa IFPI

DOI: https://doi.org/10.5753/ercemapi.2025.17571

Resumo

Este artigo apresenta o SaudeBR-QA, um córpus em larga escala com 23.382 pares de perguntas e respostas do domínio da saúde em português brasileiro. Os dados foram extraídos de um portal público, contendo perguntas reais de pacientes e respostas de profissionais verificados. Cada par possui metadados relevantes, incluindo especialidade médica, métricas de qualidade (0 a 5) e número de curtidas. O córpus oferece um recurso especializado para PLN em português, suprindo a escassez de bases anotadas para tarefas específicas. O SaudeBR-QA pretende apoiar pesquisas em classificação de textos, avaliação automática de respostas e outros cenários de mineração de textos em saúde.

Palavras-chave: Ciência de Dados, Inteligência Artificial, Mineração de Dados

Referências

Ben Abacha, A. and Demner-Fushman, D. (2019). Medquad: Medical question answering dataset containing 47,457 qa pairs from trusted sources. In Proceedings of the 18th BioNLP Workshop and Shared Task, pages 154–164. Association for Computational Linguistics.

Ferreira, D., Alva-Manchego, F., Luz, S., et al. (2023). Semclinbr: An annotated corpus for clinical semantic textual similarity in brazilian portuguese. In Proceedings of the 22nd Workshop on Biomedical Natural Language Processing (BioNLP 2023), pages 37–47. Association for Computational Linguistics.

Hartmann, N. S., Fonseca, E. R., Shulby, C., Treviso, M. V., Rodrigues, J. S., and Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and text classification. arXiv preprint arXiv:1708.06025.

Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI), pages 1137–1143.

Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.

McKinney, W. (2010). Data structures for statistical computing in python. In van der Walt, S. and Millman, J., editors, Proceedings of the 9th Python in Science Conference (SciPy 2010), pages 51–56.

OECD (2023). Health at a Glance 2023: OECD Indicators. OECD Publishing, Paris. Chapter: Digital health. Accessed: 2025-08-30.

Pampari, A., Raghavan, P., Liang, J., and Peng, J. (2018). emrqa: A large corpus for question answering on electronic medical records. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 2357–2368. Association for Computational Linguistics.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

Python (2025). Python language reference, version 3.x. [link]. Accessed: 2025-11-07.

Richardson, L. (2025). Beautiful soup documentation. [link]. Accessed: 2025-11-07.

Santos, D. and Cardoso, N. (2006). Harem: An evaluation contest for named entity recognition in portuguese. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC), pages 1986–1991. European Language Resources Association (ELRA).

Selenium (2025). Selenium webdriver. [link]. Accessed: 2025-11-07.

Verma, M., Thadani, K., and Mishra, S. (2021). Powering covid-19 community q&a with curated side information. arXiv preprint arXiv:2101.11556.