SciPhyloMiner: um Workflow para Mineração de Dados Filogemônicos de Protozoários

  • Thaylon Guedes UFF
  • Kary Ocaña UFF
  • Daniel de Oliveira UFF

Resumo


Uma tarefa importante na bioinformática é explorar informações evolutivas contidas emárvores filogenéticas, para a identificação padrões ou assinaturas que demonstrem a presença de determinado processo evolutivo. A presente pesquisa visa explorar asárvores filogenéticas de genes ortólogos nos genomas de protozoários no nível genômico, na procura de padrões nas sub-árvores relacionadas a processos evolutivos ou filogenômicos. No entanto, realizar a exploração e comparação deárvores de forma manual é inviável. Neste artigo foi desenvolvido um workflow científico de mineração de dados filogenômicos, o SciPhyloMiner, que apoia as comparações múltiplas de centenas ou milhares deárvores. A metodologia foi dividida em três etapas, com a etapa-1 geração deárvores, etapa-2 mineração deárvores e etapa-3 análise deárvores via consulta em bancos de dados de proveniência. Experimentos mostram que SciPhyloMiner permite a mineração de uma grande quantidade deárvores em ambientes de nuvem. Resultados de desempenho apresentam melhoras de até 94,54% no tempo de execução quando comparado com a execução sequencial, que cai de 4 dias para aproximadamente 4,85 horas.

Referências

Chen, D., Burleigh, J. G., Bansal, M. S., Fernández-Baca, D., 2008. PhyloFinder: An intelligent search engine for phylogenetic tree databases. BMC Evolutionary Biology 8, 90.

Chen, M., Zou, M., Yang, L., He, S., 2012. Basal Jawed Vertebrate Phylogenomics Using Transcriptomic Data from Solexa Sequencing. PLoS ONE 7, e36256.

Ciccarelli, F.D., Doerks, T., von Mering, C., Creevey, C.J., Snel, B., Bork, P., 2006. Toward automatic reconstruction of a highly resolved tree of life. Science 311, 1283–1287.

Clark, A.G., 2006. Genomics of the evolutionary process. Trends in Ecology & Evolution 21, 316–321.

Darling, A.E., Jospin, G., Lowe, E., Matsen, F.A., Bik, H.M., Eisen, J.A., 2014. PhyloSift: phylogenetic analysis of genomes and metagenomes. PeerJ 2, e243.

Dávila, Kary A. C. S. Ocaña, 2011. Phylogenomics-Based Reconstruction of Protozoan Species Tree. EBO 107.

Deepak, A., Fernández-Baca, D., Tirthapura, S., Sanderson, M.J., McMahon, M.M., 2014.

EvoMiner: frequent subtree mining in phylogenetic databases. Knowledge and Information Systems 41, 559–590.

Eisen, J.A., 2003. Phylogenomics: Intersection of Evolution and Genomics. Science 300, 1706– 1707.

Karp, R.M., Rabin, M.O., 1987. Efficient randomized pattern-matching algorithms. IBM Journal of Research and Development 31, 249–260.

Ocaña, K., Benza, S., Oliveira, D., Dias, J., Mattoso, M., 2014. Exploring Large Scale Receptor- Ligand Pairs in Molecular Docking Workflows in HPC Clouds, in: IEEE 28th International Parallel & Distributed Processing Symposium Workshops (HiComb 2014). IPDPS, Phoenix, Arizona, USA, pp. 536–545.

Ocaña, K.A.C.S., de Oliveira, D., Dias, J., Ogasawara, E., Mattoso, M., 2013. Designing a parallel cloud based comparative genomics workflow to improve phylogenetic analyses. Future Generation Computer Systems 29, 2205–2219.

Ocaña, K.A.C.S., Oliveira, D., Silva, V., Benza, S., Mattoso, M.L.Q., 2014. Exploiting the Parallel Execution of Homology Workflow Variants in HPC Compute Clouds, in: 4th International Workshop on Cloud Computing and Scientific Applications (CCSA 2014), France.

Ocaña, K., Oliveira, D. de, Ogasawara, E., Dávila, A., Lima, A., Mattoso, M., 2011. SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes, Adv. Bioinformatics Computational Biology, LNCS. Springer, pp. 66–70.

Oliveira, D., Ocaña, K.A.C.S., Ogasawara, E., Dias, J., Gonçalves, J., Baião, F., Mattoso, M., 2013. Performance evaluation of parallel strategies in public clouds: A study with phylogenomic workflows. Future Generation Computer Systems 29, 1816–1825.

Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., 2010. SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows, International Conference on Cloud Computing. Washington, DC, USA, pp. 378–385.

Taylor, I.J., Deelman, E., Gannon, D.B., Shields, M., 2007. Workflows for e-Science: Scientific Workflows for Grids, 1st ed. Springer.

Vilella, A.J., Severin, J., Ureta-Vidal, A., Heng, L., Durbin, R., Birney, E., 2009. EnsemblCompara GeneTrees: Complete, duplication-aware phylogenetic trees in vertebrates. Genome Res. 19, 327–335.

Wang, J.T.L., 2005. Data mining in bioinformatics. Springer, London.
Publicado
22/07/2017
GUEDES, Thaylon; OCAÑA, Kary; DE OLIVEIRA, Daniel. SciPhyloMiner: um Workflow para Mineração de Dados Filogemônicos de Protozoários. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 11. , 2017, São Paulo. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 69-76. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2017.9924.