Use of Shadow Pipelines to Ensure ETL Pipelines’ Compliance with the LGPD

  • Raíza Albuquerque Fluminense Federal University (UFF)
  • Marcos Bedo Fluminense Federal University (UFF)
  • José Maria Monteiro Federal University of Ceará (UFC)
  • Lenora Schwaitzer Federal University of Espírito Santo (UFES)
  • Daniel de Oliveira Fluminense Federal University (UFF)

Abstract


The General Data Protection Law (LGPD) defines guidelines for the collection, storage, and use of personal data in Brazil. Although there are solutions for adapting information systems to the LGPD, Extraction, Transformation, and Loading (ETL) pipelines, which are fundamental within organizations, still lack specific legal compliance solutions. This paper proposes an approach based on shadow pipelines to adapt existing ETL pipelines to the LGPD. The approach enables the verification of legal basis for processing provided for in its article 7. The proposal was evaluated through a feasibility study using synthetic pipelines. The results demonstrate that the approach supports LGPD compliance while preserving the original pipeline’s structure and performance.
Keywords: ETL, LGPD, Shadow Pipelines

References

Barros, P., Monteiro, J. M., Brayner, A., and Machado, J. (2024). Incorporando os requisitos e as restrições da lgpd ao projeto de banco de dados. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 341–353, Porto Alegre, RS, Brasil. SBC.

Brasil (1988). Constituição da república federativa do brasil promulgada em 5 de outubro de 1988: atualizada até a emenda constitucional n. 48.

Cabral, R., Vasconcelos, V., Lins, F., Santos, G., Losse, M., Medeiros, A., Sousa, E., and Felix, M. (2023). Transparência e livre acesso: Uma avaliação da disponibilidade de informações sobre a lgpd em sites de tribunais de contas no brasil. In Anais do XI Workshop de Computação Aplicada em Governo Eletrônico, pages 240–247, Porto Alegre, RS, Brasil. SBC.

Cerqueira, D., de Mello, R., and Travassos, G. (2023). Um checklist para inspeção de privacidade e proteção de dados pessoais em artefatos de software. In Anais do XXVI Congresso Ibero-Americano em Engenharia de Software, pages 206–213, Porto Alegre, RS, Brasil. SBC.

GDPR.EU (2019). GDPR Small Business Survey. GDPR.EU Library - Project co-funded by the Horizon 2020 Program and EU. GDPR.eu, São Paulo :, 38 ed edition.

Grafberger, S., Groth, P., and Schelter, S. (2024). Towards interactively improving ml data preparation code via ”shadow pipelines”. In Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, DEEM ’24, page 7–11, New York, NY, USA. Association for Computing Machinery.

Gruschka, N., Mavroeidis, V., Vishi, K., and Jensen, M. (2018). Privacy issues and data protection in big data: a case study analysis under gdpr. In IEEE International Conference on Big Data, pages 5027–5033. IEEE.

Jalali, S. and Wohlin, C. (2012). Systematic literature studies: database searches vs. backward snowballing. In Runeson, P., Höst, M., Mendes, E., Andrews, A. A., and Harrison, R., editors, ACM-IEEE International Symposium on Empirical Software Engineeringand Measurement, pages 29–38. ACM.

Liu, H. (2019). Research on feasibility path of technology supervision and technology protection in big data environment. In International Conference on Intelligent Transportation, Big Data & Smart City, pages 293–296. IEEE.

Loureiro, J. and de Oliveira, D. (2022). Orbiter: um arcabouço para implantação automática de aplicações big data em arquiteturas serverless. In Anais do XXXVII Simpósio Brasileiro de Bancos de Dados, pages 379–384, Porto Alegre, RS, Brasil. SBC.

Magrani, E. (2019). Entre dados e robôs: ética e privacidade na era da hiperconectividade, volume 5. Arquipélago Editorial.

Marques, S., Lisboa, A., Érico Amaral, and Lampert, V. (2021). Pdagro: Uma proposta de protocolo para compliance à lgpd. In Anais do XIII Congresso Brasileiro de Agroinformática, pages 378–381, Porto Alegre, RS, Brasil. SBC.

Martins, A. D., Barros, P., Monteiro, J., and Machado, J. (2020). Lgpd: A formal concept analysis and its evaluation. In Anais do XXXV Simpósio Brasileiro de Bancos de Dados, pages 259–264, Porto Alegre, RS, Brasil. SBC.

Nascimento, B. L. C. d. and Silva, E. M. d. (2023). Lei geral de proteção de dados (lgpd) e repositórios institucionais: reflexões e adequações. Em Questão, 29:127314.

Saraiva, J. and Soares, S. (2023). Adoption of the lgpd inventory in the user stories and bdd scenarios creation. In Anais do XXXVII Simpósio Brasileiro de Engenharia de Software, page 416–421, Porto Alegre, RS, Brasil. SBC.

Schwaitzer, L. (2020). Lgpd e acervos históricos: impactos e perspectivas. Archeion Online, João Pessoa, 8(2):36–51.

Secretaria de Saúde (2021). Relação de pessoas vacinadas - Covid 19 - Datasets - Portal de Dados Abertos da Cidade do Recife. Atualização semanal. Acesso em: 21 de Junho de 2024, 19:02 (UTC-03:00).

Solingen, R., Basili, V., Caldiera, G., and Rombach, D. (2002). Goal Question Metric (GQM) Approach.

Sousa, T., Coutinho, M., Coutinho, L., and Albuquerque, R. (2020). Lgpd: Levantamento de técnicas criptográficas e de anonimização para proteção de bases de dados. In Anais do XX Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 55–68, Porto Alegre, RS, Brasil. SBC.

Vassiliadis, P. (2009). A survey of extract-transform-load technology. Int. J. Data Warehous. Min., 5(3):1–27.

Vieira, M., de Oliveira, T., Cicco, L., de Oliveira, D., and Bedo, M. V. N. (2024). From tracking lineage to enhancing data quality and auditing: Adding provenance support to data warehouses with provetl. In Filipe, J., Smialek, M., Brodsky, A., and Hammoudi, S., editors, Proceedings of the 26th International Conference on Enterprise Information Systems, ICEIS 2024, Angers, France, April 28-30, 2024, Volume 1, pages 313–320. SCITEPRESS.

Yang, Y., Meneghetti, N., Fehling, R., Liu, Z. H., and Kennedy, O. (2015). Lenses: an on-demand approach to etl. Proc. VLDB Endow., 8(12):1578–1589.

Zaguir, N. A. (2024). Desafios e habilitadores para a conformidade com a GDPR e LGPD: modelo de Governança da Informação sobre dados pessoais. PhD thesis, Universidade de São Paulo.
Published
2025-09-29
ALBUQUERQUE, Raíza; BEDO, Marcos; MONTEIRO, José Maria; SCHWAITZER, Lenora; DE OLIVEIRA, Daniel. Use of Shadow Pipelines to Ensure ETL Pipelines’ Compliance with the LGPD. In: BRAZILIAN SYMPOSIUM ON DATABASES (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 70-83. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247001.