Análise Preditiva e Interpretação da Classificação de Malwares em Sistemas Android Usando Aprendizado de Máquina
Resumo
Este trabalho apresenta uma análise preditiva para detecção de malwares em dispositivos Android usando Aprendizado de Máquina e a interpretação dos resultados com métodos de explicabilidade. Após o pré-processamento, o conjunto de dados foi reduzido para 34.076 amostras e 179 características de chamadas de sistema e permissões. Entre 13 classificadores avaliados, o eXtreme Gradient Boosting (XGBoost) mostrou-se o mais eficiente, com métricas de acurácia, precisão, recall e F1-Score de aproximadamente 94%, e Tempo de Treinamento de 1,48s. O método SHapley Additive exPlanations (SHAP) foi utilizado para explicar as decisões do modelo, revelando chamadas de sistema e permissões sensíveis, como READ_PHONE_STATE, SYSTEM_ALERT_WINDOW, SEND_SMS, ACCESS_WIFI_STATE, getpriority e getrlimit, fortemente associados a malwares.
Referências
Akbar, F., Hussain, M., Mumtaz, R., Riaz, Q., Wahab, A. W. A., and Jung, K.-H. (2022). Permissions-based detection of android malware using machine learning. Symmetry, 14(4):718.
Guerra-Manzanares, A., Bahsi, H., and Nõmm, S. (2021). Kronodroid: Time-based hybrid-featured dataset for effective android malware detection and characterization. Computers & Security, 110:102399.
Kaspersky (2023). Malwares do google play atingem mais de 600 milhões de downloads em 2023. Disponível em: [link]. Acesso em: 12 de março de 2024.
Kouliaridis, V. and Kambourakis, G. (2021). A comprehensive survey on machine learning techniques for android malware detection. Information, 12(5).
Kouliaridis, V., Kambourakis, G., Geneiatakis, D., and Potha, N. (2020). Two anatomists are better than one—dual-level android malware detection. Symmetry, 12(7):1128.
Liu, K., Xu, S., Xu, G., Zhang, M., Sun, D., and Liu, H. (2020). A review of android malware detection approaches based on machine learning. IEEE Access, 8:124579–124607.
Mosca, E., Szigeti, F., Tragianni, S., Gallagher, D., and Groh, G. (2022). SHAP-based explanation methods: A review for NLP interpretability. In Proceedings of the 29th International Conference on Computational Linguistics, pages 4593–4603, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.
Solorio-Fernández, S., Carrasco-Ochoa, J. A., and Martínez-Trinidad, J. F. (2020). A review of unsupervised feature selection methods. Artificial Intelligence Review, 53(2):907–948.
Wang, W., Zhao, M., Gao, Z., Xu, G., Xian, H., Li, Y., and Zhang, X. (2019). Constructing features for detecting android malicious applications: Issues, taxonomy and directions. IEEE Access, 7:67602–67631.