Quando os Erros Informam: Apoio ao Diagnóstico de Diabetes em Cenários de Alta Incerteza
Resumo
Investigamos a efetividade de métodos supervisionados de aprendizado de máquina na identificação de indivíduos possivelmente não diagnosticados ou com alto risco de desenvolver Diabetes Mellitus (DM) no contexto de operadoras de saúde suplementar. O cenário é desafiador: há apenas dados administrativos indiretos (tipo e frequência de exames), sem resultados clínicos, além de baixa separabilidade entre classes e incerteza nos rótulos. Avaliamos três classificadores (XGBoost, Random Forest e Regressão Logística), obtendo desempenho robusto (Macro-F1 de 90,1%). A análise de erros sugere que falsos positivos podem indicar casos ainda não diagnosticados, enquanto falsos negativos podem refletir controle clínico inadequado.
Referências
ANS (2021). Promoção da saúde e prevenção de doenças - PROMOPREV - [link]. Atualizado em 06/06/2025.
Banday, M. Z., Sameer, A. S., and Nissar, S. (2020). Pathophysiology of diabetes: An overview. Avicenna journal of medicine, 10(04):174–188.
Cunha, W. et al. (2023). An effective, efficient, and scalable confidence-based instance selection framework for transformer-based text classification. In SIGIR, page 665–674.
Cunha, W., Moreo Fernández, A., Esuli, A., Sebastiani, F., Rocha, L., and Gonçalves, M. A. (2025). A noise-oriented and redundancy-aware instance selection framework. ACM Trans. Inf. Syst., 43(2).
da Cunha Paula, D. J. (2014). Análise de custo e efetividade do tratamento de diabéticos adultos atendidos no centro hiperdia de juiz de fora, minas gerais. Dissertação de mestrado, Universidade Federal de Juiz de Fora, Juiz de Fora, MG, Brasil. Aprovado em 17 de fevereiro de 2014.
Dinh, A., Miertschin, S., Young, A., and Mohanty, S. D. (2019). A data-driven approach to predicting diabetes and cardiovascular disease with machine learning. BMC Medical Informatics and Decision Making, 19(1):211.
Ferreira, T., França, C., A. Gonçalves, M., Pagano, A., et al. (2021). Evaluating recognizing question entailment methods for a Portuguese community question-answering system about diabetes mellitus. In Proc. Int’l Conf. on Recent Advances in Natural Language Processing.
França, C., Lima, R. C., Andrade, C., Cunha, W., de Melo, P. O. V., Ribeiro-Neto, B., Rocha, L., Santos, R. L., Pagano, A. S., and Gonçalves, M. A. (2024). On representation learning-based methods for effective, efficient, and scalable code retrieval. Neurocomputing, 600:128172.
Glechner, A., Keuchel, L., Affengruber, L., Titscher, V., Sommer, I., Matyas, N., Wagner, G., Kien, C., Klerings, I., and Gartlehner, G. (2018). Effects of lifestyle changes on adults with prediabetes: A systematic review and meta-analysis. Primary care diabetes, 12(5):393–408.
Kiran, M., Xie, Y., Anjum, N., Ball, G., Pierscionek, B., and Russell, D. (2025). Machine learning and artificial intelligence in type 2 diabetes prediction: a comprehensive 33-year bibliometric and literature analysis. Frontiers in Digital Health, 7:1557467.
Sledzik, R. and Zabihimayvan, M. (2022). Focal loss improves performance of high-sensitivity c-reactive protein imbalanced classification. In 2022 IEEE 35th International Symposium on Computer-Based Medical Systems (CBMS), pages 114–118.
Tuppad, A. and Devi Patil, S. (2024). An efficient classification framework for type 2 diabetes incorporating feature interactions. Expert Systems with Applications, 239:122138.
