Framework para a Construção de Redes Filogenéticas em Ambiente de Computação de Alto Desempenho

  • Rafael Terra LNCC
  • Kary Ocaña LNCC
  • Carla Osthoff LNCC
  • Lucas Cruz LNCC / CEFET
  • Philippe Navaux UFRGS
  • Diego Carvalho CEFET

Resumo


No presente artigo é apresentado uma avaliação de desempenho de um Framework de Redes Filogenéticas no ambiente do supercomputador Santos Dumont. O trabalho reforça os benefícios de paralelizar o framework usando abordagens paralelas baseadas em Computação de Alta Vazão (CAV), e Computação de Alto Desempenho (CAD). Os resultados da execução paralela do framework proposto, demonstram que este tipo de experimento da bioinformática é apropriado para ser executado em ambientes de CAD; apesar de que nem todas as tarefas e programas componentes do framework tenham sido criados para usufruir de escalabilidade em ambientes de CAD, ou de técnicas de paralelismo em diferentes níveis. A análise comparativa da execução dos cinco pipelines de forma sequencial (como desenhado e usado originalmente por bioinformatas) apresentou um tempo estimado de 81, 67 minutos. Já a execução do mesmo experimento por meio do framework executa os cinco pipelines de forma paralela e usufruindo de um melhor gerenciamento das tarefas, gerando um tempo total de execução de 38,73 minutos. Essa melhora é de aproximadamente 2, 11 vezes em tempo de execução sugere que a utilização de um framework otimizado leva à diminuição do tempo computacional, à melhora de alocação de recursos e ao tempo de espera na alocação.

Referências

Andronico, G., Ardizzone, V., Barbera, R., Becker, B., Bruno, R., Calanducci, A., Carvalho, D., Ciuffo, L., Fargetta, M., Giorgio, E., La Rocca, G., Masoni, A., Paganoni, M., Ruggieri, F., and Scardaci, D. (2011). e-infrastructures for e-science: A global view. Journal of Grid Computing, 9(2):155-184.

Ané, C. (2011). Detecting phylogenetic breakpoints and discordance from genome-wide alignments for species tree reconstruction. Genome Biology and Evolution, 3:246-258.

Ané, C., Larget, B., Baum, D. A., Smith, S. D., and Rokas, A. (2007). Bayesian estimation of concordance among gene trees. Molecular biology and evolution, 24(2):412-426.

Babuji, Y., Woodard, A., Li, Z., Katz, D. S., Clifford, B., Kumar, R., Lacinski, L., Chard, R., Wozniak, J. M., Foster, I., Wilde, M., and Chard, K. (2019). Parsl: Pervasive parallel programming in python. In Proceedings of the 28th International Symposium on High-Performance Parallel and Distributed Computing, pages 25-36. ACM.

Deelman, E., Peterka, T., Altintas, I., Carothers, C. D., van Dam, K. K., Moreland, K., Parashar, M., Ramakrishnan, L., Taufer, M., and Vetter, J. (2018). The future of scientific workflows. The International Journal of High Performance Computing Applications, 32(1):159-175.

Huelsenbeck, J. P. and Ronquist, F. (2001). Mrbayes: Bayesian inference of phylogenetic trees. Bioinformatics, 17(8):754-755.

Huson, D. H., Rupp, R., and Scornavacca, C. (2010). Phylogenetic networks: concepts, algorithms and applications. Cambridge University Press.

Larget, B. R., Kotha, S. K., Dewey, C. N., and Ané, C. (2010). Bucky: gene tree/species tree reconciliation with bayesian concordance analysis. Bioinformatics, 26(22):2910-2911.

Lemey, P., Salemi, M., and Vandamme, A.-M. (2009). The phylogenetic handbook: a practical approach to phylogenetic analysis and hypothesis testing. Cambridge University Press.

Mao, Y., Hou, S., Shi, J., and Economo, E. P. (2020). TREEasy: An automated workflow to infer gene trees, species trees, and phylogenetic networks from multilocus data. Molecular Ecology Resources, 20(3):832-840.

Mattoso, M., Werner, C., Travassos, G. H., Braganholo, V., Ogasawara, E., Oliveira, D. D., Cruz, S. M. S. D., Martinho, W., and Murta, L. (2010). Towards supporting the life cycle of large scale scientific experiments. International Journal of Business Process Integration and Management, 5(1):79.

Minh, B. Q., Schmidt, H. A., Chernomor, O., Schrempf, D., Woodhams, M. D., Von Haeseler, A., and Lanfear, R. (2020). Iq-tree 2: new models and efficient methods for phylogenetic inference in the genomic era. Molecular biology and evolution, 37(5):1530-1534.

Mirarab, S., Reaz, R., Bayzid, M. S., Zimmermann, T., Swenson, M. S., and Warnow, T. (2014). ASTRAL: genome-scale coalescent-based species tree estimation. Bioinformatics, 30(17):i541-i548.

Ott, M., Zola, J., Aluru, S., Johnson, A. D., Janies, D., and Stamatakis, A. (2008). Largescale phylogenetic analysis on current hpc architectures. Scientific Programming, 16(23):255-270.

Pouchard, L., Baldwin, S., Elsethagen, T., Jha, S., Raju, B., Stephan, E., Tang, L., and Van Dam, K. K. (2019). Computational reproducibility of scientific workflows at extreme scales. The International Journal of High Performance Computing Applications, 33(5):763-776.

Snir, S. and Rao, S. (2012). Quartet maxcut: a fast algorithm for amalgamating quartet trees. Molecular phylogenetics and evolution, 62(1):1-8.

Solís-Lemus, C. and Ané, C. (2016). Inferring Phylogenetic Networks with Maximum Pseudolikelihood under Incomplete Lineage Sorting. PLOS Genetics, 12(3):e1005896.

Solís-Lemus, C., Bastide, P., and Ané, C. (2017). PhyloNetworks: A Package for Phylogenetic Networks. Molecular Biology and Evolution, 34(12):3292-3298.

Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysis and postanalysis of large phylogenies. Bioinformatics, 30(9):1312-1313.

Stenz, N. W., Larget, B., Baum, D. A., and Ané, C. (2015). Exploring tree-like and non-tree-like patterns using genome sequences: an example using the inbreeding plant species arabidopsis thaliana (l.) heynh. Systematic Biology, 64(5):809-823.

Taylor, I. J., Deelman, E., Gannon, D. B., Shields, M., et al. (2007). Workflows for e-Science: scientific workflows for grids, volume 1. Springer.

Terra, R. (2022). Framework para execução de workflows de redes filogenéticas em ambientes de computação de alto desempenho. Master's thesis, Programa de Pós-Graduação em Modelagem Computacional. Coordenação de pós-graduação COPGA.

Terra, R., Coelho, M., Cruz, L., Garcia-Zapata, M., Gadelha, L., Osthoff, C., Carvalho, D., and Ocana, K. (2021). Gerência e análises de workflows aplicados a redes filogenéticas de genomas de dengue no brasil. In Anais do XV Brazilian e-Science Workshop, pages 49-56. SBC.

Versluis, L. and Iosup, A. (2021). A survey of domains in workflow scheduling in computing infrastructures: Community and keyword analysis, emerging trends, and taxonomies. Future Generation Computer Systems, 123:156-177.

Wen, D., Yu, Y., Zhu, J., and Nakhleh, L. (2018). Inferring Phylogenetic Networks Using PhyloNet. Systematic Biology, 67(4):735-740.

Yu, J. and Buyya, R. (2005). A taxonomy of scientific workflow systems for grid computing. ACM SIGMOD Record, 34(3):44.
Publicado
19/10/2022
TERRA, Rafael; OCAÑA, Kary; OSTHOFF, Carla; CRUZ, Lucas; NAVAUX, Philippe; CARVALHO, Diego. Framework para a Construção de Redes Filogenéticas em Ambiente de Computação de Alto Desempenho. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 23. , 2022, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 73-84. DOI: https://doi.org/10.5753/wscad.2022.226366.