Quando os Erros Informam: Apoio ao Diagnóstico de Diabetes em Cenários de Alta Incerteza

Samuel Norberto Alves; Celso França; Regina T. I. Bernal; Crizian S. Gomes; Oluwatoyin Joy Omole; Deborah Malta; Marcos André Gonçalves; Jussara M. Almeida

doi:10.5753/sbbd.2025.247707

Samuel Norberto Alves Universidade Federal de Minas Gerais (UFMG)
Celso França Universidade Federal de Minas Gerais (UFMG)
Regina T. I. Bernal Universidade Federal de Minas Gerais (UFMG)
Crizian S. Gomes Universidade Federal de Minas Gerais (UFMG)
Oluwatoyin Joy Omole Universidade Federal de Minas Gerais (UFMG)
Deborah Malta Universidade Federal de Minas Gerais (UFMG)
Marcos André Gonçalves Universidade Federal de Minas Gerais (UFMG)
Jussara M. Almeida Universidade Federal de Minas Gerais (UFMG)

DOI: https://doi.org/10.5753/sbbd.2025.247707

Resumo

Investigamos a efetividade de métodos supervisionados de aprendizado de máquina na identificação de indivíduos possivelmente não diagnosticados ou com alto risco de desenvolver Diabetes Mellitus (DM) no contexto de operadoras de saúde suplementar. O cenário é desafiador: há apenas dados administrativos indiretos (tipo e frequência de exames), sem resultados clínicos, além de baixa separabilidade entre classes e incerteza nos rótulos. Avaliamos três classificadores (XGBoost, Random Forest e Regressão Logística), obtendo desempenho robusto (Macro-F1 de 90,1%). A análise de erros sugere que falsos positivos podem indicar casos ainda não diagnosticados, enquanto falsos negativos podem refletir controle clínico inadequado.

Palavras-chave: Predição de diabetes, incerteza nos rótulos, baixa separabilidade, atributos indiretos

Referências

Alnowaiser, K. (2024). Improving healthcare prediction of diabetic patients using knn imputed features and tri-ensemble model. IEEE Access, 12:16783–16793.

ANS (2021). Promoção da saúde e prevenção de doenças - PROMOPREV - [link]. Atualizado em 06/06/2025.

Banday, M. Z., Sameer, A. S., and Nissar, S. (2020). Pathophysiology of diabetes: An overview. Avicenna journal of medicine, 10(04):174–188.

Cunha, W. et al. (2023). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In SIGIR, page 665–674.

Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025). A noise-oriented and redundancy-aware instance selection framework. ACM Trans. Inf. Syst., 43(2).

da Cunha Paula, D. J. (2014). Análise de custo e efetividade do tratamento de diabéticos adultos atendidos no centro hiperdia de juiz de fora, minas gerais. Dissertação de mestrado, Universidade Federal de Juiz de Fora, Juiz de Fora, MG, Brasil. Aprovado em 17 de fevereiro de 2014.

Dinh, A., Miertschin, S., Young, A., and Mohanty, S. D. (2019). A data-driven approach to predicting diabetes and cardiovascular disease with machine learning. BMC Medical Informatics and Decision Making, 19(1):211.

Ferreira, T., França, C., A. Gonçalves, M., Pagano, A., et al. (2021). Evaluating recognizing question entailment methods for a Portuguese community question-answering system about diabetes mellitus. In Proc. Int’l Conf. on Recent Advances in Natural Language Processing.

França, C., Lima, R. C., Andrade, C., Cunha, W., de Melo, P. O. V., Ribeiro-Neto, B., Rocha, L., Santos, R. L., Pagano, A. S., and Gonçalves, M. A. (2024). On representation learning-based methods for effective, efficient, and scalable code retrieval. Neurocomputing, 600:128172.

Glechner, A., Keuchel, L., Affengruber, L., Titscher, V., Sommer, I., Matyas, N., Wagner, G., Kien, C., Klerings, I., and Gartlehner, G. (2018). Effects of lifestyle changes on adults with prediabetes: A systematic review and meta-analysis. Primary care diabetes, 12(5):393–408.

Kiran, M., Xie, Y., Anjum, N., Ball, G., Pierscionek, B., and Russell, D. (2025). Machine learning and artificial intelligence in type 2 diabetes prediction: a comprehensive 33-year bibliometric and literature analysis. Frontiers in Digital Health, 7:1557467.

Sledzik, R. and Zabihimayvan, M. (2022). Focal loss improves performance of high-sensitivity c-reactive protein imbalanced classification. In 2022 IEEE 35th International Symposium on Computer-Based Medical Systems (CBMS), pages 114–118.

Tuppad, A. and Devi Patil, S. (2024). An efficient classification framework for type 2 diabetes incorporating feature interactions. Expert Systems with Applications, 239:122138.