Análise do impacto de viés nos conjuntos de dados para detecção de Malwares Android

  • Lucas Vilanova UNIPAMPA
  • Renato Sayyed UNIPAMPA
  • Taina Soares UNIPAMPA
  • Guilherme Siqueira UNIPAMPA
  • Gustavo Rodrigues UNIPAMPA
  • Eduardo Feitosa UFAM
  • Diego Kreutz UNIPAMPA

Resumo


Atualmente, a detecção de malwares Android é realizada, majoritariamente, através de modelos de aprendizado de máquina. O problema é que a maioria dos modelos desenvolvidos têm sido treinados com conjuntos de dados defasados (e.g., de 2012). Nosso objetivo é coletar evidências iniciais para demonstrar o impacto de diferentes datasets no desempenho de modelos preditivos. Para isto, utilizamos conjuntos de dados de diferentes períodos temporais, isto é, de 2012 a 2021.

Referências

Allix, K., Bissyandé, T. F., Klein, J., and Le Traon, Y. (2015). Are your training datasets yet relevant? In International Symposium on Engineering Secure Software and Systems, pages 51–67. Springer.

Assolin, J., Rocha, V., Kreutz, D., Siqueira, G., Rodrigues, G., Feitosa, E., and Casola, K. (2021). Detecção de Malwares Android: reprodução da seleção de características do SigPID. https://arxiv.kreutz.xyz/wrseg2021_sigpid_ve1.pdf.

Breiman, L. (2001). Random forests. Machine learning, 45(1):5–32.

Li, J., Sun, L., Yan, Q., Li, Z., Srisa-An, W., and Ye, H. (2018). Significant permission identification for machine-learning-based android malware detection. IEEE Transactions on Industrial Informatics, 14(7):3216–3225.

Probst, P., Boulesteix, A.-L., and Bischl, B. (2019). Tunability: importance of hyperparameters of machine learning algorithms. The Journal of Machine Learning Research, 20(1):1934–1965.

Qi, Z., Wang, H., Li, J., and Gao, H. (2018). Impacts of dirty data: and experimental evaluation. arXiv preprint arXiv:1803.06071.

Sahay, S. K., Sharma, A., and Rathore, H. (2020). Evolution of malware and its detection techniques. In Information and Communication Technology for Sustainable Development, pages 139–150. Springer.

Sharma, T. and Rattan, D. (2021). Malicious application detection in android—a systematic literature review. Computer Science Review, 40:100373.

Soares, T., Assolin, J., Barcellos, L., Sayyed, R., Casola, K., Kreutz, D., Costa, E., Gustavo, N., and Feitosa, E. (2021a). Detecção de malwares android: Disponibilidade e atualização das fontes de dados. https://arxiv.kreutz.xyz/wrseg2021_disponibilidade_ve1.pdf.

Soares, T., Siqueira, G., Barcellos, L., Sayyed, R., Vargas, L., Rodrigues, G., Assolin, J., Pontes, J., and Kreutz, D. (2021b). Detecção de malwares android: datasets e reprodutibilidade. https://arxiv.kreutz.xyz/mh21_reprodutibilidade.pdf.

Zhao, Y., Li, L., Wang, H., Cai, H., Bissyandé, T. F., Klein, J., and Grundy, J. (2021). On the impact of sample duplication in machine-learning-based android malware detection. ACM Transactions on Software Engineering and Methodology (TOSEM), 30(3):1–38.

Zheng, A. and Casari, A. (2018). Feature engineering for machine learning: principles and techniques for data scientists. ”O’Reilly Media, Inc.”.
Publicado
27/10/2021
VILANOVA, Lucas; SAYYED, Renato; SOARES, Taina; SIQUEIRA, Guilherme; RODRIGUES, Gustavo; FEITOSA, Eduardo; KREUTZ, Diego. Análise do impacto de viés nos conjuntos de dados para detecção de Malwares Android. In: ESCOLA REGIONAL DE REDES DE COMPUTADORES (ERRC), 19. , 2021, Charqueadas/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 61-66. DOI: https://doi.org/10.5753/errc.2021.18543.