Exploring Architectural Solutions for Implementing the FAIR Principles in Big Data Environments
Resumo
O conceito de Ciência Aberta surgiu como um facilitador para a colaboração científica. Neste contexto, os Princípios FAIR foram propostos para desenvolver repositórios de dados. Porém, satisfazer esses princípios pode ser desafiador devido ao grande volume de dados e metadados científicos em diferentes formatos coletados e disponibilizados em alta velocidade. Uma possível solução é desenvolver uma Arquitetura de Referência de Software (SRA) que leve em consideração as características dos ambientes de big data e os Princípios FAIR. Apesar da importância dessa solução para a Ciência Aberta, a literatura existente carece de uma SRA para ambientes de big data que alcance plena conformidade com os Princípios FAIR. A pesquisa atual preenche esta lacuna ao propor duas arquiteturas FAIR para ambientes de big data, as validando com estudos de caso e avaliações de desempenho. Contribuições futuras incluem o desenvolvimento de algoritmos para instanciar as arquiteturas propostas e a criação de conjuntos de dados artificiais em conformidade com os Princípios FAIR para auxiliar em demais validações.
Palavras-chave:
Ciência aberta, Princípios FAIR, Arquitetura de referência de software
Referências
Ataei, P. and Litchfield, A. (2021). NeoMycelia: A software reference architecture for big data systems. In Proc. APSEC, pages 452–462.
Borges, V. et al. (2022). A platform to generate FAIR data for COVID-19 clinical research in Brazil. In Proc. ICEIS, pages 218–225.
Castro, J. P. C. et al. (2022a). FAIR Principles and Big Data: A software reference architecture for Open Science. In Proc. ICEIS, pages 27–38.
Castro, J. P. C. et al. (2022b). Open Science in the cloud: The CloudFAIR architecture for FAIR-compliant repositories. In Proc. ADBIS, pages 56–66.
Chen, M., Mao, S., and Liu, Y. (2014). Big data: A survey. Mob. Netw. Appl., 19(2):171– 209.
Davoudian, A. and Liu, M. (2020). Big data systems: A software engineering perspective. ACM Comput. Surv., 53(5):1–39.
Deng, N. et al. (2022). ImmuneData: an integrated data discovery system for immunology data repositories. Database, 2022.
Kimball, R. and Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.
Medeiros, C. B. et al. (2020). IAP input into the UNESCO Open Science Recommendation. Available at [link]. Accessed in April 8, 2023.
Nakagawa, E. Y., Antonino, P. O., and Becker, M. (2011). Reference architecture and product line architecture: A subtle but critical difference. In Proc. ECSA, pages 207–211.
Sawadogo, P. and Darmont, J. (2021). On data lake architectures and metadata management. J. Intell. Inf. Syst., 56(1):97–120.
Vazquez, P. et al. (2022). Globally accessible distributed data sharing (GADDS): A decentralized FAIR platform to facilitate data sharing in the life sciences. Bioinformatics, 38:3812–3817.
Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3(1):1–9.
Borges, V. et al. (2022). A platform to generate FAIR data for COVID-19 clinical research in Brazil. In Proc. ICEIS, pages 218–225.
Castro, J. P. C. et al. (2022a). FAIR Principles and Big Data: A software reference architecture for Open Science. In Proc. ICEIS, pages 27–38.
Castro, J. P. C. et al. (2022b). Open Science in the cloud: The CloudFAIR architecture for FAIR-compliant repositories. In Proc. ADBIS, pages 56–66.
Chen, M., Mao, S., and Liu, Y. (2014). Big data: A survey. Mob. Netw. Appl., 19(2):171– 209.
Davoudian, A. and Liu, M. (2020). Big data systems: A software engineering perspective. ACM Comput. Surv., 53(5):1–39.
Deng, N. et al. (2022). ImmuneData: an integrated data discovery system for immunology data repositories. Database, 2022.
Kimball, R. and Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.
Medeiros, C. B. et al. (2020). IAP input into the UNESCO Open Science Recommendation. Available at [link]. Accessed in April 8, 2023.
Nakagawa, E. Y., Antonino, P. O., and Becker, M. (2011). Reference architecture and product line architecture: A subtle but critical difference. In Proc. ECSA, pages 207–211.
Sawadogo, P. and Darmont, J. (2021). On data lake architectures and metadata management. J. Intell. Inf. Syst., 56(1):97–120.
Vazquez, P. et al. (2022). Globally accessible distributed data sharing (GADDS): A decentralized FAIR platform to facilitate data sharing in the life sciences. Bioinformatics, 38:3812–3817.
Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data, 3(1):1–9.
Publicado
25/09/2023
Como Citar
CASTRO, João P. C.; AGUIAR, Cristina D..
Exploring Architectural Solutions for Implementing the FAIR Principles in Big Data Environments. In: WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 38. , 2023, Belo Horizonte/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2023
.
p. 138-144.
DOI: https://doi.org/10.5753/sbbd_estendido.2023.232886.