BioSciCumulus: um portal para análise de dados de proveniência em workflows de biologia computacional

  • Débora Pina UFRJ
  • Vinícius Campos UFRJ
  • Vítor Silva UFRJ
  • Kary Ocaña LNCC
  • Daniel de Oliveira UFF
  • Marta Mattoso UFRJ

Resumo


A gerência de experimentos científicos tem sido facilitada por meio de sistemas de workflows científicos (SWC). No entanto, a análise dos resultados ainda encontra dificuldades devido ao volume e a heterogeneidade dos dados gerados. Para auxiliar a análise dos experimentos, os SWC capturam dados de proveniência que rastreiam os dados da execução do workflow. Ainda assim, a análise por parte do usuário esbarra na dificuldade de conhecimento da linguagem de consultas e da modelagem dos dados de proveniência para realizar a análise. Para apoiar essas questões, este artigo propõe o Portal BioSciCumulus para facilitar a submissão de workflows científicos no domínio da bioinformática em ambientes de Processamento de Alto Desempenho (PAD) e a análise de dados, sem a necessidade de o usuário configurar o ambiente de PAD ou especificar as análises via sintaxe de linguagens de consulta.

Referências

Abouelhoda, M., Issa, S., Ghanem, M., (2012), "Tavaxy: Integrating Taverna and Galaxy workflows with cloud computing support", BMC Bioinformatics, v. 13, p. 77.

Andrade, A. C., Fróes, A., Lopes, F. Á. C., Thompson, F. L., Krüger, R. H., Dinsdale, E., Bruce, T., (2017), "Diversity of Microbial Carbohydrate-Active enZYmes (CAZYmes) Associated with Freshwater and Soil Samples from Caatinga Biome", Microbial Ecology (Jan.)

Benza, S., Ocaña, K., Silva, V., Oliveira, D., Mattoso, M., (2015), "Modelling Data-intensive Metagenomics Experiments Using Scientific Workflows". In: X-Meeting 2015 - 11th International Conference of the AB3C + Brazilian Symposium of Bioinformatics, São Paulo.

Davidson, S. B., Freire, J., (2008), "Provenance and scientific workflows: challenges and opportunities". In: ACM SIGMOD, p. 1345–1350, Vancouver, Canada.

Gesing, S., Dooley, R., Pierce, M., Krüger, J., Grunzke, R., Herres-Pawlis, S., Hoffmann, A., (2017), "Gathering requirements for advancing simulations in HPC infrastructures via science gateways", Future Generation Computer Systems (Mar.)

Jagadish, H. V., Chapman, A., Elkiss, A., Jayapandian, M., Li, Y., Nandi, A., Yu, C., (2007), "Making database systems usable". , p. 13

Jain, A., Ong, S. P., Chen, W., Medasani, B., Qu, X., Kocher, M., Brafman, M., Petretto, G., Rignanese, G.-M., et al., (2015), "FireWorks: a dynamic workflow system designed for highthroughput applications", CCPE, v. 27, n. 17, p. 5037–5059.

Mattoso, M., Dias, J., Ocaña, K. A. C. S., Ogasawara, E., Costa, F., Horta, F., Silva, V., de Oliveira, D., (2015), "Dynamic steering of HPC scientific workflows: A survey", FGCS, v. 46 (May.), p. 100–113.

McLennan, M., Clark, S., Deelman, E., Rynge, M., Vahi, K., McKenna, F., Kearney, D., Song, C., (2015), "HUBzero and Pegasus: integrating scientific workflows into science gateways: HUBZERO AND PEGASUS", Concurrency and Computation: Practice and Experience, v. 27, n. 2 (Feb.), p. 328–343.

Nguyen, H. A., Abramson, D., Kipouros, T., Janke, A., Galloway, G., (2015), "WorkWays: interacting with scientific workflows", CCPE, v. 27, n. 16 (Nov.), p. 4377–4397.

Ocaña, K. A. C. S., Oliveira, D. de, Horta, F., Dias, J., Ogasawara, E., Mattoso, M., (2012), "Exploring Molecular Evolution Reconstruction Using a Parallel Cloud-based Scientific Workflow". In: BSBBSB, p. 179–191, Berlin, Heidelberg.

Ocaña, K. A. C. S., Oliveira, D., Dias, J., Ogasawara, E., Mattoso, M., (2011a), "Optimizing Phylogenetic Analysis Using SciHmm Cloud-based Scientific Workflow". In: Proceedings of the 7th IEEE International Conference on e-Science (e-Science)IEEE e-Science 2011, p. 190–197, Stockholm, Sweden.

Ocaña, K., Oliveira, D. de, Ogasawara, E., Dávila, A., Lima, A., Mattoso, M., (2011b), "SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes". In: Advances in Bioinformatics and Computational Biology, p. 66–70

Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., (2010), "SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows". In: International Conference on Cloud ComputingInternational Conference on Cloud Computing, p. 378–385, Washington, DC, USA.

Reuillon, R., Leclaire, M., Rey-Coyrehourcq, S., (2013), "OpenMOLE, a workflow engine specifically tailored for the distributed exploration of simulation models", Future Generation Computer Systems, v. 29, n. 8 (Oct.), p. 1981–1990.

Silva, V., de Oliveira, D., Valduriez, P., Mattoso, M., (2016), "Analyzing related raw data files through dataflows", CCPE, v. 28, n. 8, p. 2528–2545.

Silva, V., Oliveira, D., Mattoso, M., (2014), "SciCumulus 2.0: Um Sistema de Gerência de Workflows Científicos para Nuvens Orientado a Fluxo de Dados". In: Sessão de Demos do XXIX Simpósio Brasileiro de Banco de Dados, Curitiba, Paraná.

Simon, C., Daniel, R., (2011), "Metagenomic Analyses: Past and Future Trends", Applied and Environmental Microbiology, v. 77, n. 4 (Feb.), p. 1153–1161.

Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., Foster, I. T., (2013), "Swift/T: Large-Scale Application Composition via Distributed-Memory Dataflow Processing". In: CCGrid, p. 95–102
Publicado
22/07/2017
PINA, Débora; CAMPOS, Vinícius; SILVA, Vítor; OCAÑA, Kary; DE OLIVEIRA, Daniel; MATTOSO, Marta. BioSciCumulus: um portal para análise de dados de proveniência em workflows de biologia computacional. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 11. , 2017, São Paulo. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 53-60. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2017.9922.