Melhorando a Acurácia da Detecção de Lavagem de Dinheiro na Rede Bitcoin

  • Gabriel Rebello Universidade Federal do Rio de Janeiro (UFRJ)
  • Yining Hu University of New South Wales (UNSW)
  • Kanchana Thilakarathna University of Sydney
  • Gustavo Batista University of New South Wales (UNSW)
  • Aruna Seneviratne University of New South Wales (UNSW)
  • Otto Carlos Muniz Bandeira Duarte Universidade Federal do Rio de Janeiro (UFRJ)

Resumo


A rede Bitcoin é um sucesso por permitir a transferência de criptomoeda com um baixo custo, de forma rápida, sem limites geográficos e sem a intervenção de um banco intermediador. Está sendo apontada como uma possível solução para mais de um bilhão de pessoas que não tem acesso ao sistema financeiro por causa dos altos custos. Por outro lado, a rede Biticoin é pseudo-anônima e tem sido usada para uma enorme variedade de atividades financeiras dúbias e ilegais. Este artigo investiga as atividades de lavagem de dinheiro na rede Bitcoin através de diversos mecanismos que procuram melhorar o desempenho de classificadores na análise de um conjunto de dados desbalanceado devido a uma classe minoritária com muito poucas amostras. A análise considera o conjunto de dados Elliptic com mais de 200 mil transações de Bitcoin, sendo o maior conjunto rotulado de dados publicamente disponível que existe hoje de todas as criptomoedas. Os experimentos realizados mostram a eficácia de cada estratégia na melhora da classificação das atividades de lavagem de dinheiro tais como: i) o percentual de repartição do conjunto de dados em treino e teste; ii) heurísticas de sobre-amostragem; ii) diferentes algoritmos de aprendizado de máquina; iv) algoritmo de reforço de aprendizado adaptativo e v) descoberta automática de características. Os resultados mostram um bom desempenho do algoritmo de sobre-amostragem AdaSyn e que o maior ganho em desempenho foi com o classificador floresta aleatória.

Palavras-chave: blockchain, lavagem de dinheiro, aprendizado de máquina, balanceamento de dados, bitcoin

Referências

Batista, G. E. A. P. A., Prati, R. C. e Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. Em ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets, volume 6, páginas 20–29, New York, NY, USA. ACM.

Blockchain.com (2019). Confirmed transactions per day. Disponı́vel em https://www.blockchain.com/charts/n-transactions. Acessado em 19 de dezembro de 2019.

Chan, P. K. e Stolfo, S. J. (1998). Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection. Em Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, KDD’98, páginas 164–168. AAAI Press.

Chawla, N. V., Bowyer, K. W., Hall, L. O. e Kegelmeyer, W. P. (2002). Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16:321–357.

Chawla, N. V., Japkowicz, N. e Kol, A. (2004). Editorial: Special issue on learning from imbalanced data sets. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets, 6(1):20–29.

CoinMarketCap (2019). Top 100 cryptocurrencies by market capitalization. Disponı́vel em https://coinmarketcap.com/pt-br/all/views/all/. Acessado em 19 de dezembro de 2019.

Demirguc-Kunt, A., Klapper, L., Singer, D., Ansar, S. e Hess, J. R. (2018). The global findex database 2017: Measuring financial inclusion and the fintech revolution. Disponı́vel em http://documents.worldbank.org/curated/en/332881525873182837/The-Global-Findex-Database-2017-Measuring-Financial-Inclusion-and-the-Fintech-Revolution. Acessado em dezembro de 2019.

Elliptic Inc. (2019). Bitcoin money laundering: How criminals use crypto. Disponı́vel em https://www.elliptic.co/our-thinking/bitcoin-money-laundering. Acessado em 19 de dezembro de 2019.

Fernández, A., Garcia, S., Herrera, F. e Chawla, N. V. (2018). Smote for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of artificial intelligence research, 61:863–905.

Foley, S., Karlsen, J. R. e Putniņš, T. J. (2019). Sex, drugs, and bitcoin: How much illegal activity is financed through cryptocurrencies? The Review of Financial Studies, 32(5):1798–1853.

Freund, Y. e Schapire, R. E. (1999). A short introduction to boosting. Journal of Japanese Society for Artificial Intelligence, 14(5):771–780.

Goyal, P. e Ferrara, E. (2018). Graph embedding techniques, applications, and performance: A survey. Knowledge-Based Systems, 151:78–94.

Grover, A. e Leskovec, J. (2016). node2vec: Scalable feature learning for networks. Em Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, páginas 855–864. ACM.

He, H., Bai, Y., Garcia, E. A. e Li, S. (2008). ADASYN: Adaptive synthetic sampling approach for imbalanced learning. IEEE International Joint Conference on Neural Networks - IEEE World Congress on Computational Intelligence, páginas 1322–1328.

Kubat, M., Holte, R. C. e Matwin, S. (1998). Machine learning for the detection of oil spills in satellite radar images. Machine Learning, 30(2):195–215.

LeCun, Y., Bengio, Y. e Hinton, G. (2015). Deep learning. nature, 521(7553):436–444.

Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Acessado em 19 de dezembro de 2019.

Saito, T. e Rehmsmeier, M. (2015). The precision-recall plot is more informative than the roc plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3).

Spilotro, T. (2019). Coinbase crypto milestone: Amasses 30M users, 5M in last 10 months. Disponı́vel em https://www.newsbtc.com/2019/07/23/coinbase-crypto-bitcoin-users-adoption/. Acessado em 19 de dezembro de 2019.

Tan, X., Su, S., Huang, Z., Guo, X., Zuo, Z., Sun, X. e Li, L. (2019). Wireless sensor networks intrusion detection based on smote and the random forest algorithm. Sensors.

United Nations Office on Drugs and Crime (2019). Money-laundering and globalization. Disponı́vel em https://www.unodc.org/unodc/en/money-laundering/globalization.html. Acessado em 19 de dezembro de 2019.

Weber, M., Domeniconi, G., Chen, J., Weidele, D. K. I., Bellei, C., Robinson, T. e Leiserson, C. E. (2019). Anti-money laundering in bitcoin: Experimenting with graph convolutional networks for financial forensics.

Weiss, G. M. (2004). Mining with rarity: A unifying framework. ACM SIGKDD Explorations Newsletter - Special issue on learning from imbalanced datasets, 6(1):7–19.

Weiss, G. M. e Hirsh, H. (1998). Learning to predict rare events in event sequences. Em Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, KDD’98, páginas 359–363. AAAI Press.

World Bank (2019). World development indicators: GDP (current US$). Disponı́vel em https://data.worldbank.org/indicator/NY.GDP.MKTP.CD?year_high_desc=true. Acessado em 19 de dezembro de 2019.
Publicado
07/12/2020
REBELLO, Gabriel; HU, Yining; THILAKARATHNA, Kanchana; BATISTA, Gustavo; SENEVIRATNE, Aruna; DUARTE, Otto Carlos Muniz Bandeira. Melhorando a Acurácia da Detecção de Lavagem de Dinheiro na Rede Bitcoin. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES E SISTEMAS DISTRIBUÍDOS (SBRC), 38. , 2020, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 728-741. ISSN 2177-9384. DOI: https://doi.org/10.5753/sbrc.2020.12321.