From Questions to Answers: A Natural Language Interface for DATASUS Hospitalization Data

  • Maicon Moraes UFRGS / PUCRS
  • Isadora Figueiredo PUCRS
  • Victória Marques PUCRS
  • Juliano Santos PUCRS
  • Isabel H. Manssour PUCRS

Resumo


Para democratizar o acesso aos dados de hospitalização do DATASUS, criamos um agente conversacional que fornece respostas em linguagem natural para perguntas em português. O agente usa um fluxo com LangGraph e Llama 3.1:8B para traduzir perguntas em SQL, alcançando 100% de sucesso de ponta a ponta e 82,9% de acurácia de execução em um benchmark de 52 consultas. Contudo, o desempenho em consultas complexas caiu para 58,3%, revelando limitações no raciocínio de múltiplos passos para operações analíticas multi-tabela. Nosso trabalho valida esta abordagem agêntica com estado e estabelece uma baseline reproduzível para extensões futuras, incluindo benchmarking de modelos, fine-tuning de domínio específico e estratégias de decomposição de consultas.

Referências

Chagas, B. A., Pagano, A., Prates, R., Praes, E., Ferreguetti, K., Vaz, H., Reis, Z., Ribeiro, L., Ribeiro, A. L., Pedroso, T., Beleigoli, A., Oliveira, C., and Marcolino, M. (2023). Evaluating user experience with a chatbot designed as a public health response to the covid-19 pandemic in brazil: Mixed methods study. JMIR Hum Factors, 10:e43135.

He, X. et al. (2024). Din-sql: Decomposed in-context learning of text-to-sql with self-correction. arXiv preprint arXiv:2402.16347.

Kavaz, E., Puig, A., and Rodríguez, I. (2023). Chatbot-based natural language interfaces for data visualisation: A scoping review. Applied Sciences, 13(12).

Laymouna, M., Ma, Y., Lessard, D., Schuster, T., Engler, K., and Lebouché, B. (2024). Roles, users, benefits, and limitations of chatbots in health care: Rapid review. J Med Internet Res, 26:e56930.

Lee, G., Hwang, H., Bae, S., Kwon, Y., Shin, W., Yang, S., Seo, M., Kim, J.-Y., and Choi, E. (2023). Ehrsql: A practical text-to-sql benchmark for electronic health records. arXiv preprint arXiv:2301.07695.

Sun, Y. et al. (2024). Sql-palm: Improved large language models for text-to-sql via few-shot learning and instruction fine-tuning. Transactions on Machine Learning Research (TMLR). arXiv:2302.05965.

Wang, B., Li, B., Miao, Z., Zhang, Y., Ge, C., Xue, F., Li, H., Zan, H., Sun, B., and Yang, Y. (2023). DIN-SQL: Decomposed in-context learning for text-to-SQL. In Findings of the Association for Computational Linguistics: ACL 2023, pages 6468–6485, Toronto, Canada. Association for Computational Linguistics.

Yeo, H., Khorasani, E., Sheinin, V., Manotas, I., An Vo, N. P., Popescu, O., and Zerfos, P. (2022). Natural language interface for process mining queries in healthcare. In 2022 IEEE International Conference on Big Data (Big Data), pages 4443–4452.

Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I., Yao, Q., Roman, S., Zhang, Z., and Radev, D. (2018). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3911–3921. Association for Computational Linguistics.

Zhang, H., Cao, R., Chen, L., Xu, H., and Yu, K. (2023). Act-sql: In-context learning for text-to-sql with automatically-generated chain-of-thought. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 3501–3532. Association for Computational Linguistics.
Publicado
12/11/2025
MORAES, Maicon; FIGUEIREDO, Isadora; MARQUES, Victória; SANTOS, Juliano; MANSSOUR, Isabel H.. From Questions to Answers: A Natural Language Interface for DATASUS Hospitalization Data. In: ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL DA REGIÃO SUL (ERAMIA-RS), 1. , 2025, Porto Alegre/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 296-299. DOI: https://doi.org/10.5753/eramiars.2025.16660.