Xi-DL: um Sistema de Gerência de Data Lake para Monitoramento de Dados da Saúde

  • Lucas Tito Universidade Federal Fluminense
  • Cristina Motinha Universidade Federal Fluminense
  • Filipe Santiago Universidade Federal Fluminense
  • Kary Ocaña Laboratório Nacional de Computação Científica
  • Marcos Bedo Universidade Federal Fluminense
  • Daniel de Oliveira Universidade Federal Fluminense

Resumo


Na última década, diversos domínios científicos vêm produzindo um grande volume de dados heterogêneos (i.e., estruturados e não-estruturados) e variantes ao longo do tempo. Apesar da popularidade, tecnologias como Data Warehouses têm se mostrado pouco adaptáveis a esses tipos de dados. Por outro lado, os Data Lakes se mostram flexíveis nesse cenário, uma vez que não necessitam de modelagem prévia (os dados são armazenados em seu formato bruto) e provêem mecanismos de consulta. Apesar de existirem diversas soluções voltadas para Data Lakes (a maioria baseada no stack Hadoop), elas requerem determinada expertise em computação que nem todo cientista possui. Esse artigo apresenta o ξ-DL, um sistema de gerência de Data Lakes para dados científicos, que permite que cientistas sem conhecimento profundo em computação possam gerenciar seus Data Lakes. O ξ-DL foi avaliado por meio de um estudo de viabilidade com um dataset de COVID-19 no Brasil. A avaliação inicial com usuários do domínio mostrou que a abordagem é promissora.

Palavras-chave: Gerenciamento de Data Lakes, Data Lakes, Covid-19

Referências

Chen, Y., Chen, H., and Huang, P. (2018). Enhancing the data privacy for public datalakes. In 2018 IEEE International Conference on Applied System Invention (ICASI), pages 1065–1068.

Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Q., 13(3):319–340.

Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has itbecame popular in data management ecosystem. In IEEE CYBER, pages 820–824.

Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational tasks: A survey. Comput. Sci. Eng., 10(3):11–21.

Hey, T., Tansley, S., and Tolle, K., editors (2009).The Fourth Paradigm: Data-IntensiveScientific Discovery. Microsoft Research, Redmond, Washington.

Inmon, W. H. (1996). The data warehouse and data mining. CACM, 39(11):49–50.

Li, Y., Liu, B., Cui, J., Wang, Z., Shen, Y., Xu, Y., and Yao, K. (2020). Similarities and evolutionary relationships of COVID-19 and related viruses. CoRR, abs/2003.05580.

Maccioni, A. and Torlone, R. (2017). Crossing the finish line faster when paddling the data lake with kayak. PVLDB, 10(12):1853–

Mello, L. E., Suman, A., and et al. (2020). Opening Brazilian COVID-19 patient data to support world research on pandemics.

Nargesian, F., Zhu, E., Miller, R. J., Pu, K. Q., and Arocena, P. C. (2019). Data lake management: Challenges and opportunities. Proc. VLDB Endow., 12(12):1986–1989.

Shishvan, O. R., Zois, D., and Soyata, T. (2018). Machine intelligence in healthcare and medical cyber physical systems: A survey. IEEE Access, 6:46419–46494.

Silva, A. B., Guedes, A., Síndico, S., Vieira, E., and de Andrade Filha, I. (2019). Registro eletrônico de saúde em hospital de alta complexidade: um relato sobre o processo de implementação na perspectiva da telessaúde. Ciência e Saúde Coletiva, 24:1133–1142
Publicado
28/09/2020
Como Citar

Selecione um Formato
TITO, Lucas; MOTINHA, Cristina; SANTIAGO, Filipe; OCAÑA, Kary; BEDO, Marcos; DE OLIVEIRA, Daniel. Xi-DL: um Sistema de Gerência de Data Lake para Monitoramento de Dados da Saúde. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 35. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 151-156. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2020.13633.