Workflows Científicos de RNA-Seq em Ambientes Distribuídos de Alto Desempenho: Otimização de Desempenho e Análises de Dados de Expressão Diferencial de Genes

  • Lucas Cruz LNCC / CEFET/RJ
  • Micaella Coelho LNCC
  • Rafael Terra LNCC
  • Diego Carvalho CEFET/RJ
  • Luiz Gadelha LNCC
  • Carla Osthoff LNCC
  • Kary Ocaña LNCC

Resumo


Apresentamos uma versão do workflow científico ParslRNA-Seq para análises de experimentos de Expressão Diferencial de Genes, acoplada a ambientes de Computação de Alto Desempenho, que mostrou melhoras no tempo total de execução de até 70%. O desempenho ParslRNA-Seq foi validado por meio de uma análise comparativa de dados da EDG em cardiomiócitos de um experimento real de RNA-Seq. Finalmente, o artigo traz discussões sobre a eleição de quais modificações na modelagem do workflow levam à melhora do desempenho e escalabilidade computacional, baseadas em dados de proveniência. ParslRNA-Seq está disponível em https://github.com/lucruzz/rna-seq.
Palavras-chave: workflows científicos, computação de alto desempenho, rna-seq, experimentos de rna-seq, expressão diferencial de genes

Referências

Anders, S. and Huber, W. (2010). Differential expression analysis for sequence count data. Nature Precedings, pages 1–1.

Cruz, L., Coelho, M., Gadelha, L., Ocana, K., and Osthoff, C. (2020). Avaliação de desempenho de um workflow científico para experimentos de rna-seq no supercomputador santos dumont. In Anais Estendidos do XXI Simpósio em Sistemas Computacionais de Alto Desempenho, pages 86–93, Porto Alegre, RS, Brasil. SBC.

Ferreira da Silva, R., Filgueira, R., Pietri, I., Jiang, M., Sakellariou, R., and Deelman, E. (2017). A characterization of workflow management systems for extreme-scale applications. Future Generation Computer Systems, 75:228–238.

Liao, Y., Smyth, G. K., and Shi, W. (2014). featurecounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics, 30(7):923– 930.

Mattoso, M., Werner, C., Travassos, G., Braganholo, V., Ogasawara, E., de Oliveira, D., Cruz, S., Martinho, W., and Murta, L. (2010). Towards supporting the life cycle of large-scale scientific experiments. International Journal of Business Process Integration and Management, 5:79–92.
Publicado
18/07/2021
CRUZ, Lucas; COELHO, Micaella; TERRA, Rafael; CARVALHO, Diego; GADELHA, Luiz; OSTHOFF, Carla; OCAÑA, Kary. Workflows Científicos de RNA-Seq em Ambientes Distribuídos de Alto Desempenho: Otimização de Desempenho e Análises de Dados de Expressão Diferencial de Genes. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 15. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 57-64. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2021.15789.