Methodology for privacy-preserving data publication for public agencies: proactively and upon request
Abstract
The publication of government data enables transparency and scientific advancement. In Brazil, this publication is regulated by the LAI, may be mandatory or requested, and must comply with the LGPD. Data privacy is the Manager’s responsibility, and suppressing explicit identifiers is insufficient to ensure privacy. This paper proposes a methodology that encompasses both forms of publication. In the mandatory, the Manager’s ensures the protection of the record without data suppression. In the requested, the Miner’s is included in the data anonymization process. A case study was conducted with public data, where it was possible to uniquely select 7,357 records. Applying the methodology, it was possible to create indistinguishable groups of size 10.References
Abu Attieh, H., Neves, D. T., Guedes, M., Mirandola, M., Dellacasa, C., Rossi, E., and Prasser, F. (2024). A scalable pseudonymization tool for rapid deployment in large biomedical research networks: Development and evaluation study. JMIR Med Inform, 12:e49646.
Affonso, E. P. and Sant’Ana, R. C. G. (2017). PRESERVAÇÃO DA PRIVACIDADE NO ACESSO A DADOS POR MEIO DO MODELO K-ANONIMATO. PontodeAcesso, 11(1):20–41.
Aggarwal, C. C., Yu, P. S., Elmagarmid, A. K., and Sheth, A. P., editors (2008). Privacy-Preserving Data Mining: Models and Algorithms, volume 34 of Advances in Database Systems. Springer US, Boston, MA.
Alves, A. G. M., Pereira, F., Chaves, I., and Machado, J. (2024a). Privacidade diferencial em gradient boosting decision trees com técnicas de particionamento para dados categóricos. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 444–456, Porto Alegre, RS, Brasil. SBC.
Alves, V., Costa, J., Gonzalez, L., Souza, A., and Villas, L. (2024b). Seleção de clientes adaptativa baseada em privacidade diferencial para aprendizado federado. In Anais Estendidos do XLII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos, pages 225–232, Porto Alegre, RS, Brasil. SBC.
Baloukas, C., Papadopoulos, L., Demestichas, K., Weissenfeld, A., Schlarb, S., Aramburu, M., Redó, D., García, J., Gaines, S., Marquenie, T., Eren, E., and Erdogan Peter, I. (2024). A risk assessment and legal compliance framework for supporting personal data sharing with privacy preservation for scientific research. In Proceedings of the 19th International Conference on Availability, Reliability and Security, ARES ’24, New York, NY, USA. Association for Computing Machinery.
Brasil (2011). Lei nº 12.527, de 18 de novembro de 2011.
Brasil (2018). Lei nº 13.709, de 14 de agosto de 2018. Presidência da República, Secretaria-Geral Subchefia para Assuntos Jurídicos.
Brito, F. and Machado, J. (2017). Preservação de Privacidade de Dados: Fundamentos, Técnicas e Aplicações. Sociedade Brasileira de Computação.
Carvalho, T., Moniz, N., Faria, P., and Antunes, L. (2023). Survey on privacy-preserving techniques for microdata publication. ACM Comput. Surv., 55(14s).
Coelho, K., Okuyama, M., Nogueira, M., Vieira, A., Silva, E., and Nacif, J. (2025). Metodologia para avaliação da anonimização baseada em k-anonimato nos modelos de aprendizado de máquina. In Anais do XLIII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos, pages 742–755, Porto Alegre, RS, Brasil. SBC.
De Capitani Di Vimercati, S., Foresti, S., Livraga, G., and Samarati, P. (2012). DATA PRIVACY: DEFINITIONS AND TECHNIQUES. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 20(06):793–817.
Direito, D. d. C. and Barros, V. L. M. (2025). Estado digital: dados e políticas públicas no brasil.
Dwork, C. (2006). Differential privacy. In Bugliesi, M., Preneel, B., Sassone, V., and Wegener, I., editors, Automata, Languages and Programming, pages 1–12, Berlin, Heidelberg. Springer Berlin Heidelberg.
Eynden, V. v. d. (2011). Managing and sharing data: best practice for researchers. UK Data Archive, Colchester, 3rd ed., fully rev edition. OCLC: 731028890.
Fung, B. C., Wang, K., Fu, A. W.-C., and Yu, P. S. (2010). Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques. Chapman & Hall/CRC, 1st edition.
Ge, Y.-F., Wang, H., Cao, J., Zhang, Y., and Jiang, X. (2024). Privacy-preserving data publishing: an information-driven distributed genetic algorithm. World Wide Web, 27(1):1.
Karagiannis, S., Ntantogian, C., Magkos, E., Tsohou, A., and Ribeiro, L. L. (2024). Mastering data privacy: leveraging k-anonymity for robust health data sharing. International Journal of Information Security, 23(3):2189–2201.
Kim, I. and Kim, T. (2024). Kmbig: Safeguarding data sharing with advanced anonymization and risk management. In 2024 IEEE International Conference on Big Data and Smart Computing (BigComp), pages 439–444.
Machado, J., Duarte Neto, E., and Bento Filho, M. (2019). Técnicas de Privacidade de Dados de Localização. In Cavalcanti, M. C. and Traina, A., editors, Tópicos em Gerenciamento de Dados e Informações: Minicursos do SBBD 2019, pages 8–37. SBC, 1 edition.
Machado, J. C. and Neto, E. R. D. (2021). Privacidade de dados de localização: Modelos, técnicas e mecanismos. Sociedade Brasileira de Computação.
Machanavajjhala, A., Kifer, D., Gehrke, J., and Venkitasubramaniam, M. (2007). L - diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data, 1(1):3.
Queiroz, M. and Motta, G. (2015). Privacidade e transparência no setor público: Um estudo de caso da publicação de microdados do inep. In Anais do XV Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 362–365, Porto Alegre, RS, Brasil. SBC.
Quinlan, R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.
Sweeney, L. (2002). k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570.
Tejedo-Romero, F., Ferraz Esteves Araujo, J. F., and Gonçalves Ribeiro, M. J. (2025). The usability of brazilian government open data portals: ensuring data quality. Humanities and Social Sciences Communications, 12(1):297.
Wang, X., Chou, J.-K., Chen, W., Guan, H., Chen, W., Lao, T., and Ma, K.-L. (2018). A utility-aware visual approach for anonymizing multi-attribute tabular data. IEEE Transactions on Visualization and Computer Graphics, 24(1):351–360.
Affonso, E. P. and Sant’Ana, R. C. G. (2017). PRESERVAÇÃO DA PRIVACIDADE NO ACESSO A DADOS POR MEIO DO MODELO K-ANONIMATO. PontodeAcesso, 11(1):20–41.
Aggarwal, C. C., Yu, P. S., Elmagarmid, A. K., and Sheth, A. P., editors (2008). Privacy-Preserving Data Mining: Models and Algorithms, volume 34 of Advances in Database Systems. Springer US, Boston, MA.
Alves, A. G. M., Pereira, F., Chaves, I., and Machado, J. (2024a). Privacidade diferencial em gradient boosting decision trees com técnicas de particionamento para dados categóricos. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 444–456, Porto Alegre, RS, Brasil. SBC.
Alves, V., Costa, J., Gonzalez, L., Souza, A., and Villas, L. (2024b). Seleção de clientes adaptativa baseada em privacidade diferencial para aprendizado federado. In Anais Estendidos do XLII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos, pages 225–232, Porto Alegre, RS, Brasil. SBC.
Baloukas, C., Papadopoulos, L., Demestichas, K., Weissenfeld, A., Schlarb, S., Aramburu, M., Redó, D., García, J., Gaines, S., Marquenie, T., Eren, E., and Erdogan Peter, I. (2024). A risk assessment and legal compliance framework for supporting personal data sharing with privacy preservation for scientific research. In Proceedings of the 19th International Conference on Availability, Reliability and Security, ARES ’24, New York, NY, USA. Association for Computing Machinery.
Brasil (2011). Lei nº 12.527, de 18 de novembro de 2011.
Brasil (2018). Lei nº 13.709, de 14 de agosto de 2018. Presidência da República, Secretaria-Geral Subchefia para Assuntos Jurídicos.
Brito, F. and Machado, J. (2017). Preservação de Privacidade de Dados: Fundamentos, Técnicas e Aplicações. Sociedade Brasileira de Computação.
Carvalho, T., Moniz, N., Faria, P., and Antunes, L. (2023). Survey on privacy-preserving techniques for microdata publication. ACM Comput. Surv., 55(14s).
Coelho, K., Okuyama, M., Nogueira, M., Vieira, A., Silva, E., and Nacif, J. (2025). Metodologia para avaliação da anonimização baseada em k-anonimato nos modelos de aprendizado de máquina. In Anais do XLIII Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos, pages 742–755, Porto Alegre, RS, Brasil. SBC.
De Capitani Di Vimercati, S., Foresti, S., Livraga, G., and Samarati, P. (2012). DATA PRIVACY: DEFINITIONS AND TECHNIQUES. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 20(06):793–817.
Direito, D. d. C. and Barros, V. L. M. (2025). Estado digital: dados e políticas públicas no brasil.
Dwork, C. (2006). Differential privacy. In Bugliesi, M., Preneel, B., Sassone, V., and Wegener, I., editors, Automata, Languages and Programming, pages 1–12, Berlin, Heidelberg. Springer Berlin Heidelberg.
Eynden, V. v. d. (2011). Managing and sharing data: best practice for researchers. UK Data Archive, Colchester, 3rd ed., fully rev edition. OCLC: 731028890.
Fung, B. C., Wang, K., Fu, A. W.-C., and Yu, P. S. (2010). Introduction to Privacy-Preserving Data Publishing: Concepts and Techniques. Chapman & Hall/CRC, 1st edition.
Ge, Y.-F., Wang, H., Cao, J., Zhang, Y., and Jiang, X. (2024). Privacy-preserving data publishing: an information-driven distributed genetic algorithm. World Wide Web, 27(1):1.
Karagiannis, S., Ntantogian, C., Magkos, E., Tsohou, A., and Ribeiro, L. L. (2024). Mastering data privacy: leveraging k-anonymity for robust health data sharing. International Journal of Information Security, 23(3):2189–2201.
Kim, I. and Kim, T. (2024). Kmbig: Safeguarding data sharing with advanced anonymization and risk management. In 2024 IEEE International Conference on Big Data and Smart Computing (BigComp), pages 439–444.
Machado, J., Duarte Neto, E., and Bento Filho, M. (2019). Técnicas de Privacidade de Dados de Localização. In Cavalcanti, M. C. and Traina, A., editors, Tópicos em Gerenciamento de Dados e Informações: Minicursos do SBBD 2019, pages 8–37. SBC, 1 edition.
Machado, J. C. and Neto, E. R. D. (2021). Privacidade de dados de localização: Modelos, técnicas e mecanismos. Sociedade Brasileira de Computação.
Machanavajjhala, A., Kifer, D., Gehrke, J., and Venkitasubramaniam, M. (2007). L - diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge Discovery from Data, 1(1):3.
Queiroz, M. and Motta, G. (2015). Privacidade e transparência no setor público: Um estudo de caso da publicação de microdados do inep. In Anais do XV Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 362–365, Porto Alegre, RS, Brasil. SBC.
Quinlan, R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.
Sweeney, L. (2002). k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05):557–570.
Tejedo-Romero, F., Ferraz Esteves Araujo, J. F., and Gonçalves Ribeiro, M. J. (2025). The usability of brazilian government open data portals: ensuring data quality. Humanities and Social Sciences Communications, 12(1):297.
Wang, X., Chou, J.-K., Chen, W., Guan, H., Chen, W., Lao, T., and Ma, K.-L. (2018). A utility-aware visual approach for anonymizing multi-attribute tabular data. IEEE Transactions on Visualization and Computer Graphics, 24(1):351–360.
Published
2025-09-01
How to Cite
MORAES, Bruno R. S.; SILVA, Josenildo C.; TELES, Ariel S.; B. JÚNIOR, Antonio A.; SILVA, Francisco J. S.; COUTINHO, Luciano R..
Methodology for privacy-preserving data publication for public agencies: proactively and upon request. In: BRAZILIAN SYMPOSIUM ON CYBERSECURITY (SBSEG), 25. , 2025, Foz do Iguaçu/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 575-591.
DOI: https://doi.org/10.5753/sbseg.2025.10653.
