Comparação de Sequências Biológicas em Cluster de GPUs na Nuvem

Wallison P. Sousa; Filipe M. Soares; Alba C. M. A. Melo; Cristiana Bentes; Maria Clicia S. de Castro

doi:10.5753/eradrj.2021.18559

Wallison P. Sousa UERJ
Filipe M. Soares UNB
Alba C. M. A. Melo UNB
Cristiana Bentes UERJ
Maria Clicia S. de Castro UERJ

DOI: https://doi.org/10.5753/eradrj.2021.18559

Resumo

A comparação de sequências genômicas é um processo utilizado para encontrar alterações estruturais em genes ou proteínas de organismos vivos. Ela é simples, computacionalmente custosa e necessita de algoritmos que reduzam seu o tempo de processamento. Este trabalho avalia o custo monetário e tempo de execução da comparação de sequências genômicas em instâncias na nuvem com GPUs. Resultados experimentais mostram que comparar sequências maiores nos clusters é vantajoso.

Referências

Batzoglou, S. (2005). The many faces of sequence alignment. Briefings in bioinformatics, 6(1):6–22.

Brum, R. C., Sousa, W. P., Melo, A. C., Bentes, C., Castro, M. C. S. d., and Drummond, L. M. d. A. (2021). A fault tolerant and deadline constrained sequence alignment application on cloud-based spot gpu instances. In European Conference on Parallel Processing, pages 317–333. Springer.

de Figueiredo Júnior, M. A. C., Navarro, J. P., de Oliveira Sandes, E. F., Teodoro, G., and Melo, A. C. M. (2021). Parallel fine-grained comparison of long dna sequences in homogeneous and heterogeneous gpu platforms with pruning. IEEE Transactions on Parallel and Distributed Systems.

Figueirêdo Júnior, M. A. C. d. (2021). Comparação paralela de sequências biológicas em múltiplas gpus com descarte de blocos e estratégias de distribuição de carga.

Gotoh, O. (1982). An improved algorithm for matching biological sequences. Journal of molecular biology, 162(3):705–708.

Myers, E. W. and Miller, W. (1988). Optimal alignments in linear space. Comp App in Biosci, 4(1):11–17.

NCBI (2021). National Center for Biotechnological Information. https://www.ncbi.nlm.nih.gov/.

Sandes, E. and Melo, A. (2010). Cudalign: using gpu to accelerate the comparison of megabase genomic sequences. In Proc. of the 15th ACM SIGPLAN, pages 137–146.

Smith, T. F., Waterman, M. S., et al. (1981). Identification of common molecular subsequences. Journal of molecular biology, 147(1):195–197.