Integração de Data Lakes Pedológicos através de Workflows ETLH

  • Sabrina Santos Cruz de Oliveira UFRRJ
  • Emerson de Barros Duarte UFRRJ
  • Elton Carneiro Marinho UFRJ
  • Sérgio Manuel Serra da Cruz UFRRJ / UFRJ

Resumo


A pedologia é a ciência que estuda o solo. Atualmente, os datasets oriundos de projetos pedológicos se encontram isolados em data lakes sob os mais variados formatos e classificações. O objetivo deste trabalho é apresentar uma abordagem e experimentos baseados em workflows ETLH capazes de serem acoplados à plataforma OpenSoils para carregar, limpar, transformar e harmonizar grandes massas de dados legados, agregando descritores de proveniência retrospectiva sobres operações e dados. O banco resultante amplia a acessibilidade, localização, compartilhamento e reúso de dados pedológicos harmonizados.
Palavras-chave: ETLH, Banco de dados, Pedologia, Solos

Referências

Agrapresse (2015). Big data: une nouvelle révolution agricole en marche. Hebdo, Agra Presse, pp. 1–7.

Cruz, S. M S., et al. (2019). Desenvolvendo Sistemas Agrícolas de Próxima Geração: Um Estudo em Ciência de Solos. In Anais do X Workshop de Computação Aplicada a Gestão do Meio Ambiente e Recursos Naturais (pp. 135-144). SBC.

Cruz, S. M. S. et al. (2018) “Towards an e-infrastructure for Open Science in Soils Security”. In: XII BRESCI 2018, 2018, Recife. Proceedings of the XII Brazilian E-Science Workshop. Porto Alegre: SBC.

Davidson, S. B.; Freire, J. (2008) “Provenance and scientific workflows: challenges and opportunities”. In: Proceedings of the 2008 ACM SIGMOD international conference on Management of data. New York, NY, USA: ACM, 2008. (SIGMOD ’08), p. 1345– 1350.

Hitachi, V. (2004). “Pentaho Data Integration”.

Marinho, E. C. et al. (2020). “Proteção de Dados: Proposta de gerenciamento de dados de solos usando os princípios FAIR e a tecnologia blockchain”. In: 10ª. Conferencia de Directores de Tecnología de Información y Comunicación en Instituciones de Educación Superior, TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia. Equador.

McBratney, A. B.; Minasny, B. Australian Centre for Precision Agriculture, Faculty of Agriculture, Food and Natural Resources, McMillan Building A05, The University of Sydney, Sydney, New South Wales 2006, Australia.

Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13.

Rosa, A. S., Anjos, M. A. (2020). Uma plataforma para facilitar o acesso aos dados do Repositório Brasileiro Livre para Dados Abertos do Solo. SEI-SICITE.

Santos, H. G. et al. (2018). Sistema brasileiro de classificação de solos. 5. ed. rev. e ampl. Brasília, DF: Embrapa.

Solos, Embrapa. (2013). Sistema brasileiro de classificação de solos. Centro Nacional de Pesquisa de Solos: Rio de Janeiro.

Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., ... & Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
Publicado
01/09/2021
DE OLIVEIRA, Sabrina Santos Cruz; DUARTE, Emerson de Barros; MARINHO, Elton Carneiro; DA CRUZ, Sérgio Manuel Serra. Integração de Data Lakes Pedológicos através de Workflows ETLH. In: ESCOLA REGIONAL DE SISTEMAS DE INFORMAÇÃO DO RIO DE JANEIRO (ERSI-RJ), 7. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 48-55. DOI: https://doi.org/10.5753/ersirj.2021.16978.

Artigos mais lidos do(s) mesmo(s) autor(es)