Construção de um Modelo Orientado a Dados para Detecção de Fraudes em Cartões de Crédito utilizando Dados Sintéticos

Alexandre C. B. dos Santos; Roger de S. Passos; Luis Domingues T. J. Tarrataca; Douglas de O. Cardoso; Diego B. Haddad; Felipe da R. Henriques

doi:10.5753/sbseg.2024.241488

Alexandre C. B. dos Santos Cefet/RJ
Roger de S. Passos Cefet/RJ
Luis Domingues T. J. Tarrataca Cefet/RJ
Douglas de O. Cardoso University of Porto
Diego B. Haddad Cefet/RJ
Felipe da R. Henriques Cefet/RJ

DOI: https://doi.org/10.5753/sbseg.2024.241488

Resumo

Fraudes em transações com cartões de crédito são um desafio global, resultando em grandes prejuízos financeiros. Este trabalho propõe um simulador de dados sintéticos de transações para replicar a dinâmica de dados reais. Esses dados foram usados para criar modelos baseados em algoritmos de classificação e detecção de anomalias, capazes de identificar fraudes. Desafios como modelagem sequencial, mudança de contexto, feedback atrasado e peculiaridades dos dados foram abordados. O algoritmo Random Forest destacou-se, detectando 76,7% das fraudes com 96,4% de precisão.

Referências

(2022). Mais de 50% das tentativas de fraude são no segmento de bancos e cartões, aponta serasa experian. Disponível em: [link]. Acesso em: 01/06/2024.

(2022). Nilson report. Disponível em: [link]. Acesso em: 01/06/2024.

(2023). Mais de 140 mil cartões foram roubados no brasil e vendidos na ’dark web’ em 2023, diz pesquisa. Disponível em: [link]. Acesso em: 01/06/2024.

(2023). Report on card fraud in 2020 and 2021. Disponível em: [link]. Acesso em: 01/06/2024.

Cerqueira, V., Torgo, L., and Mozetič, I. (2020). Evaluating time series forecasting models: An empirical study on performance estimation methods. Machine Learning, 109:1997–2028.

Davis, J. and Goadrich, M. (2006). The relationship between precision-recall and ROC curves. In Cohen, W. W. and Moore, A. W., editors, Machine Learning, Proceedings of the Twenty-Third International Conference (ICML 2006), Pittsburgh, Pennsylvania, USA, June 25-29, 2006, volume 148 of ACM International Conference Proceeding Series, pages 233–240. ACM.

Gama, J., Zliobaite, I., Bifet, A., Pechenizkiy, M., and Bouchachia, A. (2014). A survey on concept drift adaptation. ACM Comput. Surv., 46(4):44:1–44:37.

Le Borgne, Y.-A., Siblini, W., Lebichot, B., and Bontempi, G. (2022). Reproducible Machine Learning for Credit Card Fraud Detection - Practical Handbook. Université Libre de Bruxelles.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

Wong, N., Ray, P., Stephens, G., and Lewis, L. (2012). Artificial immune systems for the detection of credit card fraud: an architecture, prototype and preliminary results. Inf. Syst. J., 22(1):53–76.