MalDataGen: A Modular Framework for Synthetic Tabular Data Generation in Malware Detection

Resumo


High-quality data scarcity hinders malware detection, limiting ML performance. We introduce MalDataGen, an open-source modular framework for generating high-fidelity synthetic tabular data using modular deep learning models (e.g., WGAN-GP, VQ-VAE). Evaluated via dual validation (TR-TS/TS-TR), seven classifiers, and utility metrics, MalDataGen outperforms benchmarks like SDV while preserving data utility. Its flexible design enables seamless integration into detection pipelines, offering a practical solution for cybersecurity applications.

Referências

AI & Data Today (2023). Top 10 reasons why ai projects fail. [link].

Casola, K., Paim, K., Mansilha, R., and Kreutz, D. (2023). Droidaugmentor: uma ferramenta de treinamento e avaliação de cgans para geração de dados sintéticos. In Anais Estendidos do XXIII Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 57–64, Porto Alegre, RS, Brasil. SBC.

Dunmore, A., Jang-Jaccard, J., Sabrina, F., and Kwak, J. (2023). A comprehensive survey of generative adversarial networks (gans) in cybersecurity intrusion detection. IEEE Access, 11:76071–76094.

Esteban, C., Hyland, S. L., and Rätsch, G. (2017). Real-valued (medical) time series generation with recurrent conditional GANs. arXiv preprint arXiv:1706.02633.

Fernandes, K. C., Nogueira, A. G. D., da Silva, A. L. G., Paim, K. O., Kreutz, D., (UNIPAMPA), R. M., and de Souza Bragança, H. L. (2025). Uma Introdução sobre Redes Adversárias Generativas (GANs) e suas Aplicações na Cibersegurança, chapter 2. EDIURCAMP. Acessado em 2025-05-04.

Figueira, A. and Vaz, B. (2022). Survey on synthetic data generation, evaluation methods and gans. Mathematics, 10(15):2733.

Hao, S., Han, W., Jiang, T., Li, Y., Wu, H., Zhong, C., Zhou, Z., and Tang, H. (2024). Synthetic data in ai: Challenges, applications, and ethical implications. arXiv preprint arXiv:2401.01629.

Kingma, D. P., Welling, M., et al. (2013). Auto$-encoding variational bayes.

Kotelnikov, A., Baranchuk, D., Rubachev, I., and Babenko, A. (2023). Tabddpm: Modelling tabular data with diffusion models. In ICML. PMLR.

Kumar, V. and Sinha, D. (2023). Synthetic attack data generation model applying generative adversarial network for intrusion detection. Computers & Security.

Lee, P. (2025). Synthetic data and the future of ai. Cornell L. Rev., 110:1.

Mirza, M. and Osindero, S. (2014). Conditional generative adversarial nets. CoRR, abs/1411.1784.

Nogueira, A., Paim, K., Bragança, H., Mansilha, R., and Kreutz, D. (2024a). Geração de dados sintéticos tabulares para detecção de malware android: um estudo de caso. In Anais do XXIV Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 808–814, Porto Alegre, RS, Brasil. SBC.

Nogueira, A., Paim, K., Bragança, H., Mansilha, R., and Kreutz, D. (2024b). Malsyngen: redes neurais artificiais na geração de dados tabulares sintéticos para detecção de malware. In Anais Estendidos do XXIV Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 129–136, Porto Alegre, RS, Brasil. SBC.

Peppes, N., Alexakis, T., Daskalakis, E., Demestichas, K., and Adamopoulou, E. (2023). Malware image generation and detection method using dcgans and transfer learning. IEEE Access, 11:105872–105884.

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models . In IEEE/CVF CVPR.

Van Den Oord, A., Vinyals, O., et al. (2017). Neural discrete representation learning. Advances in neural information processing systems, 30.

Zha, D., Bhat, Z. P., Lai, K.-H., Yang, F., Jiang, Z., Zhong, S., and Hu, X. (2025). Datacentric artificial intelligence: A survey. ACM Computing Surveys, 57(5).
Publicado
01/09/2025
PAIM, Kayuã Oleques; NOGUEIRA, Angelo Gaspar Diniz; KREUTZ, Diego; CORDEIRO, Weverton; MANSILHA, Rodrigo Brandão. MalDataGen: A Modular Framework for Synthetic Tabular Data Generation in Malware Detection. In: SALÃO DE FERRAMENTAS - SIMPÓSIO BRASILEIRO DE CIBERSEGURANÇA (SBSEG), 25. , 2025, Foz do Iguaçu/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 38-47. DOI: https://doi.org/10.5753/sbseg_estendido.2025.12113.

Artigos mais lidos do(s) mesmo(s) autor(es)

1 2 3 4 5 6 7 8 > >>