Análise Preditiva e Interpretação da Classificação de Malwares em Sistemas Android Usando Aprendizado de Máquina

  • Geovani da S. do Amaral UFPA
  • Heitor S. R. S. Pinto UFPA
  • Caio C. Moreira UFPA

Resumo


Este trabalho apresenta uma análise preditiva para detecção de malwares em dispositivos Android usando Aprendizado de Máquina e a interpretação dos resultados com métodos de explicabilidade. Após o pré-processamento, o conjunto de dados foi reduzido para 34.076 amostras e 179 características de chamadas de sistema e permissões. Entre 13 classificadores avaliados, o eXtreme Gradient Boosting (XGBoost) mostrou-se o mais eficiente, com métricas de acurácia, precisão, recall e F1-Score de aproximadamente 94%, e Tempo de Treinamento de 1,48s. O método SHapley Additive exPlanations (SHAP) foi utilizado para explicar as decisões do modelo, revelando chamadas de sistema e permissões sensíveis, como READ_PHONE_STATE, SYSTEM_ALERT_WINDOW, SEND_SMS, ACCESS_WIFI_STATE, getpriority e getrlimit, fortemente associados a malwares.

Referências

Abuthawabeh, M. K. A. and Mahmoud, K. W. (2019). Android malware detection and categorization based on conversation-level network traffic features. In 2019 International Arab Conference on Information Technology (ACIT), volume 6, page 42–47. IEEE.

Akbar, F., Hussain, M., Mumtaz, R., Riaz, Q., Wahab, A. W. A., and Jung, K.-H. (2022). Permissions-based detection of android malware using machine learning. Symmetry, 14(4):718.

Guerra-Manzanares, A., Bahsi, H., and Nõmm, S. (2021). Kronodroid: Time-based hybrid-featured dataset for effective android malware detection and characterization. Computers & Security, 110:102399.

Kaspersky (2023). Malwares do google play atingem mais de 600 milhões de downloads em 2023. Disponível em: [link]. Acesso em: 12 de março de 2024.

Kouliaridis, V. and Kambourakis, G. (2021). A comprehensive survey on machine learning techniques for android malware detection. Information, 12(5).

Kouliaridis, V., Kambourakis, G., Geneiatakis, D., and Potha, N. (2020). Two anatomists are better than one—dual-level android malware detection. Symmetry, 12(7):1128.

Liu, K., Xu, S., Xu, G., Zhang, M., Sun, D., and Liu, H. (2020). A review of android malware detection approaches based on machine learning. IEEE Access, 8:124579–124607.

Mosca, E., Szigeti, F., Tragianni, S., Gallagher, D., and Groh, G. (2022). SHAP-based explanation methods: A review for NLP interpretability. In Proceedings of the 29th International Conference on Computational Linguistics, pages 4593–4603, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.

Solorio-Fernández, S., Carrasco-Ochoa, J. A., and Martínez-Trinidad, J. F. (2020). A review of unsupervised feature selection methods. Artificial Intelligence Review, 53(2):907–948.

Wang, W., Zhao, M., Gao, Z., Xu, G., Xian, H., Li, Y., and Zhang, X. (2019). Constructing features for detecting android malicious applications: Issues, taxonomy and directions. IEEE Access, 7:67602–67631.
Publicado
26/09/2024
AMARAL, Geovani da S. do; PINTO, Heitor S. R. S.; MOREIRA, Caio C.. Análise Preditiva e Interpretação da Classificação de Malwares em Sistemas Android Usando Aprendizado de Máquina. In: ESCOLA REGIONAL DE INFORMÁTICA NORTE 2, 12. , 2024, Pará/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 32-37. DOI: https://doi.org/10.5753/erin.2024.4541.