Caracterização e Classificação do Tráfego da Darknet com Modelos Baseados em Árvores de Decisão
Resumo
Darknet é um conjunto de redes e tecnologias, tendo como princípios fundamentais o anonimato e a segurança. Em muitos casos, elas são associadas à atividades ilícitas, abrindo espaço para o tráfego de malwares e a ataques a serviços legítimos. Para prevenção do mau uso de uma Darknet, se faz necessária a caracterização e classificação do tráfego nela existente. Neste trabalho, nós caracterizamos e classificamos o tráfego real de uma Darknet disponível pela base CIC-Darknet2020. Para tanto, realizamos a extração de atributos, e agrupamos possíveis sub-redes com uma abordagem de n-gramas. Além disso, avaliamos a relevância dos melhores atributos selecionados pelo método Recursive Feature Elimination para o problema. Nossos resultados indicam que modelos simples, como Decision Trees e Random Forests, alcançam uma acurácia acima de 99% na classificação do tráfego, representando um ganho de até 13% em comparação com o estado da arte.
Referências
Draper-Gil, G., Lashkari, A. H., Mamun, M. S. I., and Ghorbani, A. A. (2016). Characterization of encrypted and vpn traffic using time-related. In Proc. of the Int. conference on information systems security and privacy (ICISSP), pages 407–414.
Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems. O’Reilly Media.
Gurdip Kaur, Arash Habibi Lashkari, A. R. (2020). aDIDarknet: A Contemporary Approach to Detect and Characterize the Darknet Traffic using Deep Image Learning. In 10th International Conference on Communication and Network Security (ICCNS 2020).
Lashkari, A. H., Draper-Gil, G., Mamun, M. S. I., and Ghorbani, A. A. (2017). Characterization of tor traffic using time based features. In Proc. of the Int. conference on information systems security and privacy (ICISSP), pages 253–262.
Lotfollahi, M., Siavoshani, M. J., Zade, R. S. H., and Saberian, M. (2020). Deep packet: A novel approach for encrypted traffic classification using deep learning. Soft Computing, 24(3):1999–2012.
Medeiros, D., Cunha Neto, H., Andreoni Lopez, M., Magalhaes, L., Silva, E., Vieira, A., Fernandes, N., and Mattos, D. (2019). Análise de dados em redes sem fio de grande porte: Processamento em fluxo em tempo real, tendências e desafios. Minicursos do Simpósio Brasileiro de Redes de Computadores-SBRC, 2019:142–195.
Mirea, M., Wang, V., and Jung, J. (2019). The not so dark side of the darknet: a qualitative study. Security Journal, 32(2):102–118.
Mogul, J. et al. (1985). Internet standard subnetting procedure.
Parchekani, A., Naghadeh, S. N., and Shah-Mansouri, V. (2020). Classification of traffic using neural networks by rejecting: a novel approach in classifying vpn traffic. arXiv preprint arXiv:2001.03665.
Villela, S. M., Xavier, A. E., and Neto, R. F. (2011). Seleção de características com busca ordenada e classificadores de larga margem. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia de Sistemas e Computação.
Weinberger, K., Dasgupta, A., Langford, J., Smola, A., and Attenberg, J. (2009). Feature hashing for large scale multitask learning. In Proc. of the 26th annual international conference on machine learning, pages 1113–1120.
Wressnegger, C., Schwenk, G., Arp, D., and Rieck, K. (2013). A close look on n-grams in intrusion detection: anomaly detection vs. classification. In Proc. of the 2013 ACM workshop on Artificial Intelligence and Security, pages 67–76.
Zheng, A. and Casari, A. (2018). Feature engineering for machine learning: principles and techniques for data scientists. ”O’Reilly Media, Inc.”.