Framework para a Construção de Redes Filogenéticas em Ambiente de Computação de Alto Desempenho
Resumo
No presente artigo é apresentado uma avaliação de desempenho de um Framework de Redes Filogenéticas no ambiente do supercomputador Santos Dumont. O trabalho reforça os benefícios de paralelizar o framework usando abordagens paralelas baseadas em Computação de Alta Vazão (CAV), e Computação de Alto Desempenho (CAD). Os resultados da execução paralela do framework proposto, demonstram que este tipo de experimento da bioinformática é apropriado para ser executado em ambientes de CAD; apesar de que nem todas as tarefas e programas componentes do framework tenham sido criados para usufruir de escalabilidade em ambientes de CAD, ou de técnicas de paralelismo em diferentes níveis. A análise comparativa da execução dos cinco pipelines de forma sequencial (como desenhado e usado originalmente por bioinformatas) apresentou um tempo estimado de 81, 67 minutos. Já a execução do mesmo experimento por meio do framework executa os cinco pipelines de forma paralela e usufruindo de um melhor gerenciamento das tarefas, gerando um tempo total de execução de 38,73 minutos. Essa melhora é de aproximadamente 2, 11 vezes em tempo de execução sugere que a utilização de um framework otimizado leva à diminuição do tempo computacional, à melhora de alocação de recursos e ao tempo de espera na alocação.
Referências
Ané, C. (2011). Detecting phylogenetic breakpoints and discordance from genome-wide alignments for species tree reconstruction. Genome Biology and Evolution, 3:246-258.
Ané, C., Larget, B., Baum, D. A., Smith, S. D., and Rokas, A. (2007). Bayesian estimation of concordance among gene trees. Molecular biology and evolution, 24(2):412-426.
Babuji, Y., Woodard, A., Li, Z., Katz, D. S., Clifford, B., Kumar, R., Lacinski, L., Chard, R., Wozniak, J. M., Foster, I., Wilde, M., and Chard, K. (2019). Parsl: Pervasive parallel programming in python. In Proceedings of the 28th International Symposium on High-Performance Parallel and Distributed Computing, pages 25-36. ACM.
Deelman, E., Peterka, T., Altintas, I., Carothers, C. D., van Dam, K. K., Moreland, K., Parashar, M., Ramakrishnan, L., Taufer, M., and Vetter, J. (2018). The future of scientific workflows. The International Journal of High Performance Computing Applications, 32(1):159-175.
Huelsenbeck, J. P. and Ronquist, F. (2001). Mrbayes: Bayesian inference of phylogenetic trees. Bioinformatics, 17(8):754-755.
Huson, D. H., Rupp, R., and Scornavacca, C. (2010). Phylogenetic networks: concepts, algorithms and applications. Cambridge University Press.
Larget, B. R., Kotha, S. K., Dewey, C. N., and Ané, C. (2010). Bucky: gene tree/species tree reconciliation with bayesian concordance analysis. Bioinformatics, 26(22):2910-2911.
Lemey, P., Salemi, M., and Vandamme, A.-M. (2009). The phylogenetic handbook: a practical approach to phylogenetic analysis and hypothesis testing. Cambridge University Press.
Mao, Y., Hou, S., Shi, J., and Economo, E. P. (2020). TREEasy: An automated workflow to infer gene trees, species trees, and phylogenetic networks from multilocus data. Molecular Ecology Resources, 20(3):832-840.
Mattoso, M., Werner, C., Travassos, G. H., Braganholo, V., Ogasawara, E., Oliveira, D. D., Cruz, S. M. S. D., Martinho, W., and Murta, L. (2010). Towards supporting the life cycle of large scale scientific experiments. International Journal of Business Process Integration and Management, 5(1):79.
Minh, B. Q., Schmidt, H. A., Chernomor, O., Schrempf, D., Woodhams, M. D., Von Haeseler, A., and Lanfear, R. (2020). Iq-tree 2: new models and efficient methods for phylogenetic inference in the genomic era. Molecular biology and evolution, 37(5):1530-1534.
Mirarab, S., Reaz, R., Bayzid, M. S., Zimmermann, T., Swenson, M. S., and Warnow, T. (2014). ASTRAL: genome-scale coalescent-based species tree estimation. Bioinformatics, 30(17):i541-i548.
Ott, M., Zola, J., Aluru, S., Johnson, A. D., Janies, D., and Stamatakis, A. (2008). Largescale phylogenetic analysis on current hpc architectures. Scientific Programming, 16(23):255-270.
Pouchard, L., Baldwin, S., Elsethagen, T., Jha, S., Raju, B., Stephan, E., Tang, L., and Van Dam, K. K. (2019). Computational reproducibility of scientific workflows at extreme scales. The International Journal of High Performance Computing Applications, 33(5):763-776.
Snir, S. and Rao, S. (2012). Quartet maxcut: a fast algorithm for amalgamating quartet trees. Molecular phylogenetics and evolution, 62(1):1-8.
Solís-Lemus, C. and Ané, C. (2016). Inferring Phylogenetic Networks with Maximum Pseudolikelihood under Incomplete Lineage Sorting. PLOS Genetics, 12(3):e1005896.
Solís-Lemus, C., Bastide, P., and Ané, C. (2017). PhyloNetworks: A Package for Phylogenetic Networks. Molecular Biology and Evolution, 34(12):3292-3298.
Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysis and postanalysis of large phylogenies. Bioinformatics, 30(9):1312-1313.
Stenz, N. W., Larget, B., Baum, D. A., and Ané, C. (2015). Exploring tree-like and non-tree-like patterns using genome sequences: an example using the inbreeding plant species arabidopsis thaliana (l.) heynh. Systematic Biology, 64(5):809-823.
Taylor, I. J., Deelman, E., Gannon, D. B., Shields, M., et al. (2007). Workflows for e-Science: scientific workflows for grids, volume 1. Springer.
Terra, R. (2022). Framework para execução de workflows de redes filogenéticas em ambientes de computação de alto desempenho. Master's thesis, Programa de Pós-Graduação em Modelagem Computacional. Coordenação de pós-graduação COPGA.
Terra, R., Coelho, M., Cruz, L., Garcia-Zapata, M., Gadelha, L., Osthoff, C., Carvalho, D., and Ocana, K. (2021). Gerência e análises de workflows aplicados a redes filogenéticas de genomas de dengue no brasil. In Anais do XV Brazilian e-Science Workshop, pages 49-56. SBC.
Versluis, L. and Iosup, A. (2021). A survey of domains in workflow scheduling in computing infrastructures: Community and keyword analysis, emerging trends, and taxonomies. Future Generation Computer Systems, 123:156-177.
Wen, D., Yu, Y., Zhu, J., and Nakhleh, L. (2018). Inferring Phylogenetic Networks Using PhyloNet. Systematic Biology, 67(4):735-740.
Yu, J. and Buyya, R. (2005). A taxonomy of scientific workflow systems for grid computing. ACM SIGMOD Record, 34(3):44.