Uma Abordagem para a Gestão da Linhagem de Dados Heterogêneos

  • Hudson A. B. da Silva Universidade Federal de Santa Catarina (UFSC) http://orcid.org/0000-0001-9245-1340
  • José E. M. Jochem Universidade Federal de Santa Catarina (UFSC)
  • João V. dos Santos Universidade Federal de Santa Catarina (UFSC)
  • Eduardo F. R. de Sousa Universidade Federal de Santa Catarina (UFSC)
  • Ronaldo dos S. Mello Universidade Federal de Santa Catarina (UFSC) https://orcid.org/0000-0003-4262-5474
  • Carina F. Dorneles Universidade Federal de Santa Catarina (UFSC)
  • Renato Fileto Universidade Federal de Santa Catarina (UFSC)

Resumo


A Auditoria e a governança de dados em projetos com múltiplas fontes exigem rastreabilidade confiável, garantindo a qualidade e confiabilidade dos dados ao longo de seu ciclo de vida. A linhagem de dados surge como uma ferramenta essencial para mapear a origem, transformações e destinos dos dados. Este trabalho propõe uma abordagem para definir e implementar o percurso completo dos dados ao longo do tempo. Utilizou-se metadados padronizados pelo Dublin Core, enriquecidos para capturar e persistir o histórico de transformações. A abordagem inclui a modelagem de metadados específicos para rastrear operações de ETL (Extração, Transformação e Carga) e demonstrou ser viável em um projeto com dados reais.
Palavras-chave: linhagem de dados, governançca, metadados

Referências

Barata, A. and Prado, E. (2015). Governança de dados em organizaçoes brasileiras. In Simpósio Brasileiro de Sistemas de Informação (SBSI), pages 267–274. SBC.

Batini, C., Scannapieco, M., et al. (2016). Data and information quality. Cham, Switzerland: Springer International Publishing, 63.

Brasil (2018). Lei geral de proteção de dados pessoais (lgpd). Lei nº 13.709, de 14 de agosto de 2018. Diário Oficial da União, Brasília, 14 ago. 2018.

Buneman, P., Khanna, S., and Tan, W.-C. (2001). Why and where: A characterization of data provenance. Lecture Notes in Computer Science, 2237:316–330.

da Silva, D. L., Batista, A., and Correa, P. L. (2016). Data provenance in environmental monitoring. In 2016 IEEE 13th International Conference on Mobile Ad Hoc and Sensor Systems (MASS), pages 337–342. IEEE.

da Silva, H. A. B., Santos, J. V. d., Jochem, J. E. M., Fleck, A., Mello, R. d. S., Dorneles, C. F., and Fileto, R. (2024). Uma Proposta Baseada no Dublin Core para Catalogação de Metadados de Fontes de Dados Governamentais. In XXXIX Simpósio Brasileiro de Banco de Dados (SBBD). Sociedade Brasileira de Computação.

da Silva, H. A. B., Santos, J. V. d., Souza, E. F. R. d., Jochem, J. E. M., Mello, R. d. S., Dorneles, C. F., and Fileto, R. (2025). Análise de Ferramentas de Código Aberto para Gestão de Metadados: OpenMetadata e Amundsen. In XX Escola Regional de Banco de Dados (ERBD). Sociedade Brasileira de Computação.

DCMI (2024). Dcmi metadata terms. [link]. Último acesso: 12 de março de 2025.

dos Santos, I. M. F., Andreatta, A. A., and Siqueira, S. W. (2011). Qualidade dos dados nas organizações sob o enfoque de apoio a decisão: Um estudo exploratório. In Simpósio Brasileiro de Sistemas de Informação (SBSI), pages 166–177. SBC.

Faria, M. R., Lopes, M., de Faria Cordeiro, K., et al. (2018). Govdadosmb: um framework de governança de dados corporativos para a marinha do brasil. In Simpósio Brasileiro de Banco de Dados (SBBD), pages 241–246. SBC.

Gierend, K., Krüger, F., Genehr, S., Hartmann, F., Siegel, F., Waltemath, D., Ganslandt, T., and Zeleke, A. A. (2024). Provenance information for biomedical data and workflows: Scoping review. Journal of medical Internet research, 26:e51297.

Gurstein, M. (2011). Open data: Empowering the empowered or effective data use for everyone? First Monday. Disponível em: [link]. Acesso em: 30 mar. 2025.

Inmon, W. H. (1992). Building the Data Warehouse. Wiley.

International, D. (2017). DAMA-DMBOK: Data Management Body of Knowledge. Technics Publications, Nova Jersey, 2. ed. edition.

ISO/IEC (2003). Iso/iec 11179: Information technology — metadata registries (mdr). International Organization for Standardization.

Johns, M., Baum, L., and Prasser, F. (2025). Tracking provenance in clinical data warehouses for quality management. International Journal of Medical Informatics, 193:105690.

Kimball, R. and Ross, M. (2013). The data warehouse toolkit: The definitive guide to dimensional modeling. John Wiley & Sons.

Mendoza, I., Corrêa, R., and Bernardini, F. (2023). Como a governança de dados pode auxiliar na mitigação de barreiras de uso de portais de dados governamentais abertos? uma análise da literatura. In Workshop de Computação Aplicada em Governo Eletrônico (WCGE), pages 212–223. SBC.

Olson, J. E. (2003). Data quality: the accuracy dimension. Elsevier.

Reis Jr, C., Martins, L., Victorino, M., and Holanda, M. (2019). Modelo de dados de proveniência para uma arquitetura de dados abertos governamentais. In Workshop de Transparência em Sistemas (WTranS), pages 11–20. SBC.

Simmhan, Y. L., Plale, B., and Gannon, D. (2005). A survey of data provenance in e-science. ACM Sigmod Record, 34(3):31–36.

Vetrò, A., Canova, L., Torchiano, M., Minotas, C. O., Iemma, R., and Morando, F. (2016). Open data quality measurement framework: Definition and application to open government data. Government Information Quarterly, 33(2):325–337.
Publicado
29/09/2025
SILVA, Hudson A. B. da; JOCHEM, José E. M.; DOS SANTOS, João V.; SOUSA, Eduardo F. R. de; MELLO, Ronaldo dos S.; DORNELES, Carina F.; FILETO, Renato. Uma Abordagem para a Gestão da Linhagem de Dados Heterogêneos. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 630-643. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247293.