Exploring Architectural Solutions for Implementing the FAIR Principles in Big Data Environments

  • João P. C. Castro Universidade de São Paulo (USP) / Universidade Federal de Minas Gerais (UFMG)
  • Cristina D. Aguiar Universidade de São Paulo (USP)

Resumo


O conceito de Ciência Aberta surgiu como um facilitador para a colaboração científica. Neste contexto, os Princípios FAIR foram propostos para desenvolver repositórios de dados. Porém, satisfazer esses princípios pode ser desafiador devido ao grande volume de dados e metadados científicos em diferentes formatos coletados e disponibilizados em alta velocidade. Uma possível solução é desenvolver uma Arquitetura de Referência de Software (SRA) que leve em consideração as características dos ambientes de big data e os Princípios FAIR. Apesar da importância dessa solução para a Ciência Aberta, a literatura existente carece de uma SRA para ambientes de big data que alcance plena conformidade com os Princípios FAIR. A pesquisa atual preenche esta lacuna ao propor duas arquiteturas FAIR para ambientes de big data, as validando com estudos de caso e avaliações de desempenho. Contribuições futuras incluem o desenvolvimento de algoritmos para instanciar as arquiteturas propostas e a criação de conjuntos de dados artificiais em conformidade com os Princípios FAIR para auxiliar em demais validações.
Palavras-chave: Ciência aberta, Princípios FAIR, Arquitetura de referência de software

Referências

Ataei, P. and Litchfield, A. (2021). NeoMycelia: A software reference architecture for big data systems. In Proc. APSEC, pages 452–462.

Borges, V. et al. (2022). A platform to generate FAIR data for COVID-19 clinical research in Brazil. In Proc. ICEIS, pages 218–225.

Castro, J. P. C. et al. (2022a). FAIR Principles and Big Data: A software reference architecture for Open Science. In Proc. ICEIS, pages 27–38.

Castro, J. P. C. et al. (2022b). Open Science in the cloud: The CloudFAIR architecture for FAIR-compliant repositories. In Proc. ADBIS, pages 56–66.

Chen, M., Mao, S., and Liu, Y. (2014). Big data: A survey. Mob. Netw. Appl., 19(2):171– 209.

Davoudian, A. and Liu, M. (2020). Big data systems: A software engineering perspective. ACM Comput. Surv., 53(5):1–39.

Deng, N. et al. (2022). ImmuneData: an integrated data discovery system for immunology data repositories. Database, 2022.

Kimball, R. and Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.

Medeiros, C. B. et al. (2020). IAP input into the UNESCO Open Science Recommendation. Available at [link]. Accessed in April 8, 2023.

Nakagawa, E. Y., Antonino, P. O., and Becker, M. (2011). Reference architecture and product line architecture: A subtle but critical difference. In Proc. ECSA, pages 207–211.

Sawadogo, P. and Darmont, J. (2021). On data lake architectures and metadata management. J. Intell. Inf. Syst., 56(1):97–120.

Vazquez, P. et al. (2022). Globally accessible distributed data sharing (GADDS): A decentralized FAIR platform to facilitate data sharing in the life sciences. Bioinformatics, 38:3812–3817.

Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3(1):1–9.
Publicado
25/09/2023
CASTRO, João P. C.; AGUIAR, Cristina D.. Exploring Architectural Solutions for Implementing the FAIR Principles in Big Data Environments. In: WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 38. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 138-144. DOI: https://doi.org/10.5753/sbbd_estendido.2023.232886.