Otimização e Análise Crítica de um Classificador de Ataques de Rede por Similaridade no Dataset CIC-IDS-2018

Nícolas Warmeling; Laura Klippel; Carlo Mantovani; Tiago Ferreto

doi:10.5753/errc.2025.17835

Nícolas Warmeling PUCRS
Laura Klippel PUCRS
Carlo Mantovani PUCRS
Tiago Ferreto PUCRS

DOI: https://doi.org/10.5753/errc.2025.17835

Resumo

Este trabalho otimiza um modelo de classificação de pacotes de rede baseado em vetores de similaridade para o dataset CIC-IDS-2018. Para enfrentar desafios de memória superiores a 100 GB de RAM, a biblioteca FAISS substituiu o algoritmo k-NN, possibilitando análise em uma VM de alta performance. A replicação dos cenários de teste originais com métricas adicionais de precisão revelou baixa efetividade na detecção de ataques sub-representados, refletindo o paradoxo da acurácia em datasets desbalanceados. Embora as otimizações tenham sido bem-sucedidas, o balanceamento de dados é necessário para sistemas de detecção de intrusão robustos.

Referências

Alshamy, R., Ghurab, M., Othman, S., and Alshami, F. (2021). Intrusion Detection Model for Imbalanced Dataset Using SMOTE and Random Forest Algorithm, pages 361–378.

Arjovsky, M., Chintala, S., and Bottou, L. (2017). Wasserstein GAN. In Proceedings of the 34th International Conference on Machine Learning, pages 214–223. PMLR.

Barkah, A., Selamat, S. R., Abidin, Z., and Wahyudi, R. (2023). Data generative model to detect the anomalies for ids imbalance cicids2017 dataset. TEM Journal, 12:80–89.

IBM X-Force (2022). X-force threat intelligence index 2022. Technical report, IBM Corp.

Kamal, H. and Mashaly, M. (2025). Hybrid deep learning-based autoencoder-dnn model for intelligent intrusion detection system in iot networks. pages 1–6.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in python. Journal of Machine Learning Research, 12:2825–2830. Acesso em: 27 jun. 2025.

Powers, D. M. W. (2011). Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2(1):37–63.

Sharafaldin, I., Lashkari, A. H., and Ghorbani, A. A. (2018). Toward generating a new intrusion detection dataset and intrusion traffic characterization. In Proceedings of the 4th International Conference on Information Systems Security and Privacy (ICISSP), pages 108–116, Funchal, Madeira, Portugal. SciTePress. Dataset available at [link].

Singhal, A. (2001). Modern information retrieval: a brief overview. IEEE Data Engineering Bulletin, 24(4):35–43.