Abordagem Híbrida Baseada em Clusterização e Classificação para Otimizar a Previsão de Risco de Crédito

Vanderlei Gomes da Silva Filho; Martony Demes da Silva

doi:10.5753/eramiars.2025.16277

Vanderlei Gomes da Silva Filho UFMA
Martony Demes da Silva UFMA

DOI: https://doi.org/10.5753/eramiars.2025.16277

Resumo

A inadimplência causa bilhões em perdas ao setor financeiro, exigindo métodos preditivos eficazes. Este estudo avalia uma abordagem híbrida que combina clusterização (K-Means) e classificação supervisionada (Regressão Logística, Árvore de Decisão e XGBoost) para melhorar a previsão de risco de crédito. Usando a base German Credit Data em três cenários, a segmentação tradicional aumentou o F1-score em até 6% e o AUC-ROC em 4% em certos clusters, superando métodos convencionais. A pesquisa apoia sistemas de crédito mais precisos, reduzindo inadimplência e ampliando a inclusão.

Referências

Baesens, B., Van Gestel, T., Stepanova, M., Van den Poel, D., and Vanthienen, J. (2003). Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the Operational Research Society, 54(6):627–635.

Experian, S. (2019). Relatório de inadimplência no brasil.

Han, J., Kamber, M., and Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann, 3rd edition.

Kakade, S. and Dudhe, N. (2021). Customer segmentation for credit risk prediction using k-means clustering. International Journal of Computer Applications, 176(13):1–5.

Lessmann, S., Baesens, B., Seow, H.-V., and Thomas, L. C. (2015). Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1):124–136.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, M., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in python. Journal of Machine Learning Research, 12:2825–2830.

Shi, Y., Li, M., and Wang, J. (2022). Hybrid clustering and classification approach for credit risk prediction. Expert Systems with Applications, 187:115925.

Smith, J., Oliveira, R., and Santos, M. (2022). Impact of credit risk failures on financial inclusion. Journal of Banking and Finance, 134:106335.

Zhang, Y. and Zhou, Z.-H. (2017). A review on multi-label learning algorithms. IEEE Transactions on Knowledge and Data Engineering, 26(8):1819–1837.