Uso de workflows ETLH para integrar datasets pedológicos: estudo para adequação aos princípios FAIR
Resumo
Atualmente, os datasets oriundos de projetos pedológicos se encontram isolados em silos sob os mais variados formatos. O objetivo deste trabalho é apresentar uma abordagem e experimentos baseados em workflows ETLH e de FAIRificação capazes de carregar, limpar, transformar, identificar e harmonizar grandes massas de dados legados na plataforma OpenSoils. Adicionalmente, discutimos as principais etapas do processo de FAIRificação.
Referências
Cruz, S. M S., et al. (2019). Desenvolvendo Sistemas Agrícolas de Próxima Geração: Um Estudo em Ciência de Solos. In Anais do X Workshop de Computação Aplicada a Gestão do Meio Ambiente e Recursos Naturais (pp. 135-144). SBC. DOI: http://dx.doi.org/10.5753/wcama.2019.6428
Cruz, S. M. S. et al. (2018) Towards an e-infrastructure for Open Science in Soils Security. In: XII BRESCI 2018, 2018, Recife. Proceedings of the XII Brazilian E Science Workshop. Porto Alegre: SBC.
Da Cruz, S. M. S; Do Nascimento, J.A.P. (2016). SisGExp: Rethinking Long-Tail Agronomic Experiments. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). [S. l.: s. n.], vol. 9672, p. 214–217. https://doi.org/10.1007/978-3-319-40593-3_24. DOI: https://doi.org/10.1007/978-3-319-40593-3_24
Goble, C., Cohen-Boulakia, S., Soiland-Reyes, S., Garijo, D., Gil, Y., Crusoe, M. R., ... & Schober, D. (2020). FAIR computational workflows. Data Intelligence, 2(1-2), 108-121. DOI: https://doi.org/10.1162/dint_a_00033
Oliveira, S. S. C., de Barros Duarte, E., Marinho, E. C., & da Cruz, S. M. S. (2021,September). Integração de Data Lakes Pedológicos através de Workflows ETLH. In Anais da VII Escola Regional de Sistemas de Informação do Rio de Janeiro (pp. 48-55). SBC. DOI: https://doi.org/10.5753/ersirj.2021
Marinho, E. C. et al. (2020). “Proteção de Dados: Proposta de gerenciamento de dados de solos usando os princípios FAIR e a tecnologia blockchain”. In: 10ª. Conferencia de Directores de Tecnología de Información y Comunicación en Instituciones de Educación Superior, TICAL2020 y 4° Encuentro Latinoamericano de e-Ciencia. Equador.
Rosa, A. S., Anjos, M. A. (2020). Uma plataforma para facilitar o acesso aos dados do Repositório Brasileiro Livre para Dados Abertos do Solo. SEI-SICITE.
Santos, H. G. et al. (2018). Sistema brasileiro de classificação de solos. 5. ed. rev. e ampl. Brasília, DF: Embrapa.
Simitsis, A. (2003, September). Modeling and managing ETL processes. In VLDB PhD Workshop (Vol. 76).
Veiga, V. S. de O., Henning, P., Dib, S., Penedo, E., Lima, J. D. C., Silva, L. O. B. da, & Pires, L. F. (2019). Plano de gestão de dados fair: uma proposta para a Fiocruz | Fair data management plan: a proposal for Fiocruz. Liinc Em Revista, 15(2). DOI: https://doi.org/10.18617/liinc.v15i2.5030
Wilkinson, M.; Dumontier, M.; Albersberg, I. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018. DOI: https://doi.org/10.1038/sdata.2016.18