High Performance Computing for Protein Sequence Modeling

Raquel Melo Minardi; Karine Bastard; François Artiguenave

Raquel Melo Minardi UFMG
Karine Bastard CEA / CNRS / University Evry Val d’Essonne
François Artiguenave CEA / CNRS / University Evry Val d’Essonne / UNICAMP

Resumo

As abordagens mais utilizadas para predição de função de proteínas são baseadas na classificação de sequências e na transferência de funções de proteínas conhecidas para seus homólogos mais próximos. Estas abordagens são restritas às super-famílias homogêneas e não são úteis na predição de novas atividades. A biologia estrutural oferece novos meios de superar esta limitação através da agregação da informação sobre as estruturas de proteínas. Neste trabalho, apresentamos os resultados do Grand Challenge, um desafio do supercomputador francês CCRT de 350TFlopss que ilustra as novas perspectivas que este tipo de tecnologia juntamente com as técnicas de e-Science nos fazem vislumbrar rumo ao entendimento das funções e evolução de proteínas.

Referências

Bellinzoni, M., Bastard, K., Perret, A., Zaparucha, A., Perchat, N., Vergne, C., Wagner, T., Melo-Minardi, R., Artiguenave, F., Cohen, G., Weissenbach, J., Salanoubat, M., Alzari, P. (2011) 3-keto-5-aminohexanoate cleavage enzyme: a common fold for an uncommon reaction, Submitted to PNAS.

Eswar,N. et al. (2006) Comparative protein structure modeling using modeller. Curr. Protoc. Bioinformatics, Chapter 5, Unit 5.6.

Eswar,N. et al. (2008) Protein structure modelling with Modeller. Methods Mol. Biol., 426, 145–159.

Finn R.D. et al. (2008) The Pfam protein families database. Nucleic Acids Res., 36, D281–D288.

Fisher,D. (1987) Knowledge acquisition via incremental conceptual clustering. Mach .Learn., 2, 139–172.

Guilloux,V.L. et al. (2009) Fpocket: an open source platform for ligand pocket detection. BMC Bioinformatics, 10.

Holmes, G. et al. (1994) Weka: a machine learning workbench. In Proceedings of the Second Australia and New Zealand Conference on Intelligent Information Systems.

Madhusudhan,M. et al. (2009) Alignment of multiple protein structures based on sequence and structure features. Protein Eng. Des. Sel., 22, 569–574.

Melo-Minardi, R.C., Bastard, K. and Artiguenave, F. (2010) “Identification of subfamiliy-specific sites based on active sites modeling and clustering”. Bioinformatics, 26, 3075-3082.

Pei,J. et al. (2006) Prediction of functional specificity determinants from protein sequences using log-likelihood ratios. Bioinformatics, 22, 164–171.

Shatsky,M. et al. (2004) A method for simultaneous alignment of multiple protein structures. Proteins, 56, 143–156.

Sol,A.D. et al. (2003) Automatic methods for predicting functionally important residues. J. Mol. Biol., 326, 1289–1302.

Sonnhammer,E. et al. (1997) Pfam: a comprehensive database of protein families based on seed alignments. Proteins, 28, 405–420.

Tramontano,A. and Morea,V. (2003) Assessment of homology-based predictions in CASP5. Proteins, 53 (Suppl. 6), 652–368.

Whelan,S. and Goldman,N. (2001) A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach. Mol. Biol. Evol., 18, 691–699.