Uso de Shadow Pipelines para Garantir a Adequação de Pipelines ETL à LGPD
Resumo
A Lei Geral de Proteção de Dados Pessoais (LGPD) define diretrizes para a coleta, armazenamento e uso de dados pessoais no Brasil. Apesar de existirem soluções para adequação de sistemas de informação à LGPD, os pipelines de Extração, Transformação e Carga (ETL), fundamentais nas organizações, ainda carecem de soluções específicas voltadas à adequação legal. Este artigo propõe uma abordagem baseada em shadow pipelines para adaptar pipelines ETL existentes à LGPD. A abordagem permite a verificação de algumas hipóteses para tratamento de dados previstas no seu artigo 7º. A proposta foi avaliada por meio de estudo de viabilidade utilizando pipelines sintéticos. Os resultados demonstram que a abordagem contribui para a adequação à LGPD, preservando a estrutura e desempenho do pipeline original.
Palavras-chave:
ETL, LGPD, Shadow Pipelines
Referências
Barros, P., Monteiro, J. M., Brayner, A., and Machado, J. (2024). Incorporando os requisitos e as restrições da lgpd ao projeto de banco de dados. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 341–353, Porto Alegre, RS, Brasil. SBC.
Brasil (1988). Constituição da república federativa do brasil promulgada em 5 de outubro de 1988: atualizada até a emenda constitucional n. 48.
Cabral, R., Vasconcelos, V., Lins, F., Santos, G., Losse, M., Medeiros, A., Sousa, E., and Felix, M. (2023). Transparência e livre acesso: Uma avaliação da disponibilidade de informações sobre a lgpd em sites de tribunais de contas no brasil. In Anais do XI Workshop de Computação Aplicada em Governo Eletrônico, pages 240–247, Porto Alegre, RS, Brasil. SBC.
Cerqueira, D., de Mello, R., and Travassos, G. (2023). Um checklist para inspeção de privacidade e proteção de dados pessoais em artefatos de software. In Anais do XXVI Congresso Ibero-Americano em Engenharia de Software, pages 206–213, Porto Alegre, RS, Brasil. SBC.
GDPR.EU (2019). GDPR Small Business Survey. GDPR.EU Library - Project co-funded by the Horizon 2020 Program and EU. GDPR.eu, São Paulo :, 38 ed edition.
Grafberger, S., Groth, P., and Schelter, S. (2024). Towards interactively improving ml data preparation code via ”shadow pipelines”. In Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, DEEM ’24, page 7–11, New York, NY, USA. Association for Computing Machinery.
Gruschka, N., Mavroeidis, V., Vishi, K., and Jensen, M. (2018). Privacy issues and data protection in big data: a case study analysis under gdpr. In IEEE International Conference on Big Data, pages 5027–5033. IEEE.
Jalali, S. and Wohlin, C. (2012). Systematic literature studies: database searches vs. backward snowballing. In Runeson, P., Höst, M., Mendes, E., Andrews, A. A., and Harrison, R., editors, ACM-IEEE International Symposium on Empirical Software Engineeringand Measurement, pages 29–38. ACM.
Liu, H. (2019). Research on feasibility path of technology supervision and technology protection in big data environment. In International Conference on Intelligent Transportation, Big Data & Smart City, pages 293–296. IEEE.
Loureiro, J. and de Oliveira, D. (2022). Orbiter: um arcabouço para implantação automática de aplicações big data em arquiteturas serverless. In Anais do XXXVII Simpósio Brasileiro de Bancos de Dados, pages 379–384, Porto Alegre, RS, Brasil. SBC.
Magrani, E. (2019). Entre dados e robôs: ética e privacidade na era da hiperconectividade, volume 5. Arquipélago Editorial.
Marques, S., Lisboa, A., Érico Amaral, and Lampert, V. (2021). Pdagro: Uma proposta de protocolo para compliance à lgpd. In Anais do XIII Congresso Brasileiro de Agroinformática, pages 378–381, Porto Alegre, RS, Brasil. SBC.
Martins, A. D., Barros, P., Monteiro, J., and Machado, J. (2020). Lgpd: A formal concept analysis and its evaluation. In Anais do XXXV Simpósio Brasileiro de Bancos de Dados, pages 259–264, Porto Alegre, RS, Brasil. SBC.
Nascimento, B. L. C. d. and Silva, E. M. d. (2023). Lei geral de proteção de dados (lgpd) e repositórios institucionais: reflexões e adequações. Em Questão, 29:127314.
Saraiva, J. and Soares, S. (2023). Adoption of the lgpd inventory in the user stories and bdd scenarios creation. In Anais do XXXVII Simpósio Brasileiro de Engenharia de Software, page 416–421, Porto Alegre, RS, Brasil. SBC.
Schwaitzer, L. (2020). Lgpd e acervos históricos: impactos e perspectivas. Archeion Online, João Pessoa, 8(2):36–51.
Secretaria de Saúde (2021). Relação de pessoas vacinadas - Covid 19 - Datasets - Portal de Dados Abertos da Cidade do Recife. Atualização semanal. Acesso em: 21 de Junho de 2024, 19:02 (UTC-03:00).
Solingen, R., Basili, V., Caldiera, G., and Rombach, D. (2002). Goal Question Metric (GQM) Approach.
Sousa, T., Coutinho, M., Coutinho, L., and Albuquerque, R. (2020). Lgpd: Levantamento de técnicas criptográficas e de anonimização para proteção de bases de dados. In Anais do XX Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 55–68, Porto Alegre, RS, Brasil. SBC.
Vassiliadis, P. (2009). A survey of extract-transform-load technology. Int. J. Data Warehous. Min., 5(3):1–27.
Vieira, M., de Oliveira, T., Cicco, L., de Oliveira, D., and Bedo, M. V. N. (2024). From tracking lineage to enhancing data quality and auditing: Adding provenance support to data warehouses with provetl. In Filipe, J., Smialek, M., Brodsky, A., and Hammoudi, S., editors, Proceedings of the 26th International Conference on Enterprise Information Systems, ICEIS 2024, Angers, France, April 28-30, 2024, Volume 1, pages 313–320. SCITEPRESS.
Yang, Y., Meneghetti, N., Fehling, R., Liu, Z. H., and Kennedy, O. (2015). Lenses: an on-demand approach to etl. Proc. VLDB Endow., 8(12):1578–1589.
Zaguir, N. A. (2024). Desafios e habilitadores para a conformidade com a GDPR e LGPD: modelo de Governança da Informação sobre dados pessoais. PhD thesis, Universidade de São Paulo.
Brasil (1988). Constituição da república federativa do brasil promulgada em 5 de outubro de 1988: atualizada até a emenda constitucional n. 48.
Cabral, R., Vasconcelos, V., Lins, F., Santos, G., Losse, M., Medeiros, A., Sousa, E., and Felix, M. (2023). Transparência e livre acesso: Uma avaliação da disponibilidade de informações sobre a lgpd em sites de tribunais de contas no brasil. In Anais do XI Workshop de Computação Aplicada em Governo Eletrônico, pages 240–247, Porto Alegre, RS, Brasil. SBC.
Cerqueira, D., de Mello, R., and Travassos, G. (2023). Um checklist para inspeção de privacidade e proteção de dados pessoais em artefatos de software. In Anais do XXVI Congresso Ibero-Americano em Engenharia de Software, pages 206–213, Porto Alegre, RS, Brasil. SBC.
GDPR.EU (2019). GDPR Small Business Survey. GDPR.EU Library - Project co-funded by the Horizon 2020 Program and EU. GDPR.eu, São Paulo :, 38 ed edition.
Grafberger, S., Groth, P., and Schelter, S. (2024). Towards interactively improving ml data preparation code via ”shadow pipelines”. In Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, DEEM ’24, page 7–11, New York, NY, USA. Association for Computing Machinery.
Gruschka, N., Mavroeidis, V., Vishi, K., and Jensen, M. (2018). Privacy issues and data protection in big data: a case study analysis under gdpr. In IEEE International Conference on Big Data, pages 5027–5033. IEEE.
Jalali, S. and Wohlin, C. (2012). Systematic literature studies: database searches vs. backward snowballing. In Runeson, P., Höst, M., Mendes, E., Andrews, A. A., and Harrison, R., editors, ACM-IEEE International Symposium on Empirical Software Engineeringand Measurement, pages 29–38. ACM.
Liu, H. (2019). Research on feasibility path of technology supervision and technology protection in big data environment. In International Conference on Intelligent Transportation, Big Data & Smart City, pages 293–296. IEEE.
Loureiro, J. and de Oliveira, D. (2022). Orbiter: um arcabouço para implantação automática de aplicações big data em arquiteturas serverless. In Anais do XXXVII Simpósio Brasileiro de Bancos de Dados, pages 379–384, Porto Alegre, RS, Brasil. SBC.
Magrani, E. (2019). Entre dados e robôs: ética e privacidade na era da hiperconectividade, volume 5. Arquipélago Editorial.
Marques, S., Lisboa, A., Érico Amaral, and Lampert, V. (2021). Pdagro: Uma proposta de protocolo para compliance à lgpd. In Anais do XIII Congresso Brasileiro de Agroinformática, pages 378–381, Porto Alegre, RS, Brasil. SBC.
Martins, A. D., Barros, P., Monteiro, J., and Machado, J. (2020). Lgpd: A formal concept analysis and its evaluation. In Anais do XXXV Simpósio Brasileiro de Bancos de Dados, pages 259–264, Porto Alegre, RS, Brasil. SBC.
Nascimento, B. L. C. d. and Silva, E. M. d. (2023). Lei geral de proteção de dados (lgpd) e repositórios institucionais: reflexões e adequações. Em Questão, 29:127314.
Saraiva, J. and Soares, S. (2023). Adoption of the lgpd inventory in the user stories and bdd scenarios creation. In Anais do XXXVII Simpósio Brasileiro de Engenharia de Software, page 416–421, Porto Alegre, RS, Brasil. SBC.
Schwaitzer, L. (2020). Lgpd e acervos históricos: impactos e perspectivas. Archeion Online, João Pessoa, 8(2):36–51.
Secretaria de Saúde (2021). Relação de pessoas vacinadas - Covid 19 - Datasets - Portal de Dados Abertos da Cidade do Recife. Atualização semanal. Acesso em: 21 de Junho de 2024, 19:02 (UTC-03:00).
Solingen, R., Basili, V., Caldiera, G., and Rombach, D. (2002). Goal Question Metric (GQM) Approach.
Sousa, T., Coutinho, M., Coutinho, L., and Albuquerque, R. (2020). Lgpd: Levantamento de técnicas criptográficas e de anonimização para proteção de bases de dados. In Anais do XX Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais, pages 55–68, Porto Alegre, RS, Brasil. SBC.
Vassiliadis, P. (2009). A survey of extract-transform-load technology. Int. J. Data Warehous. Min., 5(3):1–27.
Vieira, M., de Oliveira, T., Cicco, L., de Oliveira, D., and Bedo, M. V. N. (2024). From tracking lineage to enhancing data quality and auditing: Adding provenance support to data warehouses with provetl. In Filipe, J., Smialek, M., Brodsky, A., and Hammoudi, S., editors, Proceedings of the 26th International Conference on Enterprise Information Systems, ICEIS 2024, Angers, France, April 28-30, 2024, Volume 1, pages 313–320. SCITEPRESS.
Yang, Y., Meneghetti, N., Fehling, R., Liu, Z. H., and Kennedy, O. (2015). Lenses: an on-demand approach to etl. Proc. VLDB Endow., 8(12):1578–1589.
Zaguir, N. A. (2024). Desafios e habilitadores para a conformidade com a GDPR e LGPD: modelo de Governança da Informação sobre dados pessoais. PhD thesis, Universidade de São Paulo.
Publicado
29/09/2025
Como Citar
ALBUQUERQUE, Raíza; BEDO, Marcos; MONTEIRO, José Maria; SCHWAITZER, Lenora; DE OLIVEIRA, Daniel.
Uso de Shadow Pipelines para Garantir a Adequação de Pipelines ETL à LGPD. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 70-83.
ISSN 2763-8979.
DOI: https://doi.org/10.5753/sbbd.2025.247001.
