Avaliação de Desempenho de um Workflow Científico para Experimentos de RNA-Seq no Supercomputador Santos Dumont
Resumo
Experimentos científicos em larga escala são considerados complexos devido à modelagem de suas atividades, execução e análises de grandes volumes de dados. Na bioinformática esses experimentos são modelados como workflows científicos utilizando conceitos de computação de alto desempenho e ciência de dados. Neste artigo apresentamos o workflow ParslRNA-Seq para experimentos de RNA-Seq e análises de desempenho das execuções realizadas no supercomputador Santos Dumont usando dados reais. Os resultados mostram uma melhora no desempenho, quando comparado às execuções realizadas da forma tradicional sem paralelização e via Web, de 3 dias para 11 horas, com reproducibilidade de resultados de dados biológicos sensíveis. A execução multithreading do workflow indica também que a parametrização é dependente do Parsl e da atividade bowtie.Referências
Anders, S., Pyl, P. T., and Huber, W. (2014). HTSeq—a Python framework to work with high-throughput sequencing data. Bioinformatics, 31(2):166–169.
Babuji, Y., Woodard, A., Li, Z., Katz, D. S., Clifford, B., Kumar, R., Lacinski, L., Chard, R., Wozniak, J., Foster, I., Wilde, M., and Chard, K. (2019). Parsl: Pervasive parallel programming in python. In 28th ACM International Symposium on High-Performance Parallel and Distributed Computing (HPDC).
Braghetto, K. R. and Cordeiro, D. (2014). Introdução à modelagem e execução de work- ows cientícos. Atualizações em Informática. 1ed. Porto Alegre: SBC, pages 1–40.
Cordeiro, D., Braghetto, K. R., Goldman, A., and Kon, F. (2013). Da ciência à e-ciência: paradigmas da descoberta do conhecimento. Revista USP, (97):71–81.
Langmead, B. and Salzberg, S. L. (2012). Fast gapped-read alignment with bowtie 2. Nature methods, 9(4):357.
Love, M. I., Huber, W., and Anders, S. (2014). Moderated estimation of fold change and dispersion for rna-seq data with deseq2. Genome biology, 15(12):550.
Mattos, A., Silva, F., Ruberg, N., and Cruz, M. (2008). Gerência de workows cientícos: uma análise crítica no contexto da bioinformática. COPPE/UFRJ.
Oca˜na, K. A. C. S., Galheigo, M., Osthoff, C., Gadelha, L., Porto, F., Gomes, A., Oliveira, D., and Vasconcelos, A. T. (2020). Bioinfoportal: A scientic gateway for integra- ting bioinformatics applications on the brazilian national high-performance computing network. Future Generation Computer Systems, 107:192–214.
Silva, R. R. and Yokoyama, R. S. (2011). Avaliação do desempenho de threads em user level utilizando sistema operacional linux. Revista de Informática Teórica e Aplicada.
Babuji, Y., Woodard, A., Li, Z., Katz, D. S., Clifford, B., Kumar, R., Lacinski, L., Chard, R., Wozniak, J., Foster, I., Wilde, M., and Chard, K. (2019). Parsl: Pervasive parallel programming in python. In 28th ACM International Symposium on High-Performance Parallel and Distributed Computing (HPDC).
Braghetto, K. R. and Cordeiro, D. (2014). Introdução à modelagem e execução de work- ows cientícos. Atualizações em Informática. 1ed. Porto Alegre: SBC, pages 1–40.
Cordeiro, D., Braghetto, K. R., Goldman, A., and Kon, F. (2013). Da ciência à e-ciência: paradigmas da descoberta do conhecimento. Revista USP, (97):71–81.
Langmead, B. and Salzberg, S. L. (2012). Fast gapped-read alignment with bowtie 2. Nature methods, 9(4):357.
Love, M. I., Huber, W., and Anders, S. (2014). Moderated estimation of fold change and dispersion for rna-seq data with deseq2. Genome biology, 15(12):550.
Mattos, A., Silva, F., Ruberg, N., and Cruz, M. (2008). Gerência de workows cientícos: uma análise crítica no contexto da bioinformática. COPPE/UFRJ.
Oca˜na, K. A. C. S., Galheigo, M., Osthoff, C., Gadelha, L., Porto, F., Gomes, A., Oliveira, D., and Vasconcelos, A. T. (2020). Bioinfoportal: A scientic gateway for integra- ting bioinformatics applications on the brazilian national high-performance computing network. Future Generation Computer Systems, 107:192–214.
Silva, R. R. and Yokoyama, R. S. (2011). Avaliação do desempenho de threads em user level utilizando sistema operacional linux. Revista de Informática Teórica e Aplicada.
Publicado
21/10/2020
Como Citar
CRUZ, Lucas; COELHO, Micaella; GADELHA, Luiz; OCAÑA, Kary; OSTHOFF, Carla.
Avaliação de Desempenho de um Workflow Científico para Experimentos de RNA-Seq no Supercomputador Santos Dumont. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 21. , 2020, Evento Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2020
.
p. 86-93.
DOI: https://doi.org/10.5753/wscad_estendido.2020.14093.