Metodologia para Avaliação da Anonimização Baseada em k-Anonimato nos Modelos de Aprendizado de Máquina

Kristtopher K. Coelho; Maurício M. Okuyama; Michele Nogueira; Alex Borges Vieira; Edelberto Franco Silva; José Augusto M. Nacif

doi:10.5753/sbrc.2025.6356

Kristtopher K. Coelho UFV http://orcid.org/0000-0002-8756-5965
Maurício M. Okuyama UFV
Michele Nogueira UFMG
Alex Borges Vieira UFJF
Edelberto Franco Silva UFJF
José Augusto M. Nacif UFV

DOI: https://doi.org/10.5753/sbrc.2025.6356

Resumo

O crescente volume de dados sensíveis, gerados por diversos domínios, exige abordagens robustas para proteção da privacidade. A anonimização baseada em k-anonimato se destaca por mitigar os riscos de reidentificação de dados pessoais. Entretanto, o impacto sobre o desempenho de modelos de aprendizado de máquina é comumente negligenciado. Este trabalho propõe um método comparativo inovador para avaliar os efeitos da anonimização sobre o desempenho de modelos de aprendizado de máquina, considerando métricas de privacidade, perda de informação e desempenho. Os resultados fornecem insights para o desenvolvimento e aprimoramento de soluções baseadas em k-anonimato para conciliar privacidade e eficiência em ambientes distribuídos.

Palavras-chave: Privacidade dos Dados, k-anonimato, Aprendizado de Máquina, Aprendizado Federado

Referências

Beutel, D. J., Topal, T., Mathur, A., Qiu, X., Fernandez-Marques, J., Gao, Y., Sani, L., Li, K. H., Parcollet, T., de Gusmão, P. P. B., et al. (2020). Flower: A friendly federated learning research framework. arXiv preprint arXiv:2007.14390.

Choudhury, O., Gkoulalas-Divanis, A., Salonidis, T., Sylla, I., Park, Y., Hsu, G., and Das, A. (2020). Anonymizing data for privacy-preserving federated learning. arXiv preprint arXiv:2002.09096.

Coelho, K. K., Okuyama, M. M., Nogueira, M., Vieira, A. B., Silva, E. F., and Nacif, J. A. M. (2024a). A dynamic approach to health data anonymization by separatrices. In 2024 IEEE Symposium on Computers and Communications (ISCC), pages 1–6. IEEE.

Coelho, K. K., Okuyama, M. M., Nogueira, M., Vieira, A. B., Silva, E. F., and Nacif, J. A. M. (2024b). A new k-anonymity method based on generalization first k-member clustering for healthcare data. In Transactions on Dependable and Secure Computing.

Domingo-Ferrer, J., Sánchez, D., and Soria-Comas, J. (2022). Database anonymization: privacy models, data utility, and microaggregation-based inter-model connections. Springer Nature.

Ghinita, G., Karras, P., Kalnis, P., and Mamoulis, N. (2007). Fast data anonymization with low information loss. In Proceedings of the 33rd International Conference on Very Large Data Bases, pages 758–769.

Khan, R., Tao, X., Anjum, A., Kanwal, T., Malik, S. U. R., Khan, A., Rehman, W. U., and Maple, C. (2020). θ-sensitive k-anonymity: An anonymization model for IoT-based electronic health records. Electronics, 9(5):716.

Kwatra, S. and Torra, V. (2021). A k-anonymised federated learning framework with decision trees. In International Workshop on Data Privacy Management, pages 106–120. Springer.

LeFevre, K., DeWitt, D. J., and Ramakrishnan, R. (2006). Mondrian multidimensional k-anonymity. In 22nd International Conference on Data Engineering (ICDE’06), pages 25–25. IEEE.

Lhoest, Q., Del Moral, A. V., Jernite, Y., Thakur, A., Von Platen, P., Patil, S., Chaumond, J., Drame, M., Plu, J., Tunstall, L., et al. (2021). Datasets: A community library for natural language processing. arXiv preprint arXiv:2109.02846.

Liu, G., Ma, X., Yang, Y., Wang, C., and Liu, J. (2021). Federaser: Enabling efficient client-level data removal from federated learning models. In 2021 IEEE/ACM 29th International Symposium on Quality of Service (IWQOS), pages 1–10. IEEE.

Qi, P., Chiaro, D., Guzzo, A., Ianni, M., Fortino, G., and Piccialli, F. (2024). Model aggregation techniques in federated learning: A comprehensive survey. Future Generation Computer Systems, 150:272–293.

Saleh, T. E. (2022). Comparison of the effects of data privacy preserving methods on machine learning algorithms in IoT. Master’s thesis, Marmara Universitesi (Turkey).

Salmeron, J. L. and Arévalo, I. (2024). Blind federated learning without initial model. Journal of Big Data, 11(1):56.

Slijepčević, D., Henzl, M., Klausner, L. D., Dam, T., Kieseberg, P., and Zeppelzauer, M. (2021). k-anonymity in practice: How generalisation and suppression affect machine learning classifiers. Computers & Security, 111:102488.

Torra, P. (2013). Information Fusion in Data Mining. Studies in Fuzziness and Soft Computing. Springer Berlin Heidelberg.

Torra, V. and Navarro-Arribas, G. (2023). Attribute disclosure risk for k-anonymity: the case of numerical data. International Journal of Information Security, 22(6):2015–2024.

Victor, N. and Lopez, D. (2020). Privacy preserving sensitive data publishing using (k, n, m) anonymity approach. Journal of Communications Software and Systems, 16(1):46–56.

Metodologia para Avaliação da Anonimização Baseada em k-Anonimato nos Modelos de Aprendizado de Máquina

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)