Integração de Data Lakes Pedológicos através de Workflows ETLH
Resumo
A pedologia é a ciência que estuda o solo. Atualmente, os datasets oriundos de projetos pedológicos se encontram isolados em data lakes sob os mais variados formatos e classificações. O objetivo deste trabalho é apresentar uma abordagem e experimentos baseados em workflows ETLH capazes de serem acoplados à plataforma OpenSoils para carregar, limpar, transformar e harmonizar grandes massas de dados legados, agregando descritores de proveniência retrospectiva sobres operações e dados. O banco resultante amplia a acessibilidade, localização, compartilhamento e reúso de dados pedológicos harmonizados.
Palavras-chave:
ETLH, Banco de dados, Pedologia, Solos
Referências
Agrapresse (2015). Big data: une nouvelle révolution agricole en marche. Hebdo, Agra Presse, pp. 1–7.
Cruz, S. M S., et al. (2019). Desenvolvendo Sistemas Agrícolas de Próxima Geração: Um Estudo em Ciência de Solos. In Anais do X Workshop de Computação Aplicada a Gestão do Meio Ambiente e Recursos Naturais (pp. 135-144). SBC.
Cruz, S. M. S. et al. (2018) “Towards an e-infrastructure for Open Science in Soils Security”. In: XII BRESCI 2018, 2018, Recife. Proceedings of the XII Brazilian E-Science Workshop. Porto Alegre: SBC.
Davidson, S. B.; Freire, J. (2008) “Provenance and scientific workflows: challenges and opportunities”. In: Proceedings of the 2008 ACM SIGMOD international conference on Management of data. New York, NY, USA: ACM, 2008. (SIGMOD ’08), p. 1345– 1350.
Hitachi, V. (2004). “Pentaho Data Integration”.
Marinho, E. C. et al. (2020). “Proteção de Dados: Proposta de gerenciamento de dados de solos usando os princípios FAIR e a tecnologia blockchain”. In: 10ª. Conferencia de Directores de Tecnología de Información y Comunicación en Instituciones de Educación Superior, TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia. Equador.
McBratney, A. B.; Minasny, B. Australian Centre for Precision Agriculture, Faculty of Agriculture, Food and Natural Resources, McMillan Building A05, The University of Sydney, Sydney, New South Wales 2006, Australia.
Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13.
Rosa, A. S., Anjos, M. A. (2020). Uma plataforma para facilitar o acesso aos dados do Repositório Brasileiro Livre para Dados Abertos do Solo. SEI-SICITE.
Santos, H. G. et al. (2018). Sistema brasileiro de classificação de solos. 5. ed. rev. e ampl. Brasília, DF: Embrapa.
Solos, Embrapa. (2013). Sistema brasileiro de classificação de solos. Centro Nacional de Pesquisa de Solos: Rio de Janeiro.
Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., ... & Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
Cruz, S. M S., et al. (2019). Desenvolvendo Sistemas Agrícolas de Próxima Geração: Um Estudo em Ciência de Solos. In Anais do X Workshop de Computação Aplicada a Gestão do Meio Ambiente e Recursos Naturais (pp. 135-144). SBC.
Cruz, S. M. S. et al. (2018) “Towards an e-infrastructure for Open Science in Soils Security”. In: XII BRESCI 2018, 2018, Recife. Proceedings of the XII Brazilian E-Science Workshop. Porto Alegre: SBC.
Davidson, S. B.; Freire, J. (2008) “Provenance and scientific workflows: challenges and opportunities”. In: Proceedings of the 2008 ACM SIGMOD international conference on Management of data. New York, NY, USA: ACM, 2008. (SIGMOD ’08), p. 1345– 1350.
Hitachi, V. (2004). “Pentaho Data Integration”.
Marinho, E. C. et al. (2020). “Proteção de Dados: Proposta de gerenciamento de dados de solos usando os princípios FAIR e a tecnologia blockchain”. In: 10ª. Conferencia de Directores de Tecnología de Información y Comunicación en Instituciones de Educación Superior, TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia. Equador.
McBratney, A. B.; Minasny, B. Australian Centre for Precision Agriculture, Faculty of Agriculture, Food and Natural Resources, McMillan Building A05, The University of Sydney, Sydney, New South Wales 2006, Australia.
Rahm, E., & Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), 3–13.
Rosa, A. S., Anjos, M. A. (2020). Uma plataforma para facilitar o acesso aos dados do Repositório Brasileiro Livre para Dados Abertos do Solo. SEI-SICITE.
Santos, H. G. et al. (2018). Sistema brasileiro de classificação de solos. 5. ed. rev. e ampl. Brasília, DF: Embrapa.
Solos, Embrapa. (2013). Sistema brasileiro de classificação de solos. Centro Nacional de Pesquisa de Solos: Rio de Janeiro.
Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., ... & Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9.
Publicado
01/09/2021
Como Citar
DE OLIVEIRA, Sabrina Santos Cruz; DUARTE, Emerson de Barros; MARINHO, Elton Carneiro; DA CRUZ, Sérgio Manuel Serra.
Integração de Data Lakes Pedológicos através de Workflows ETLH. In: ESCOLA REGIONAL DE SISTEMAS DE INFORMAÇÃO DO RIO DE JANEIRO (ERSI-RJ), 7. , 2021, Evento Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2021
.
p. 48-55.
DOI: https://doi.org/10.5753/ersirj.2021.16978.