Programação Genética para Geração de Regras Usadas na Extração de Interações entre Proteínas em Textos
Resumo
Este trabalho apresenta um método para otimização de um conjunto de regras sintáticas a fim de extrair interações entre proteínas de textos científicos. A técnica de otimização utilizada é a programação genética, um algoritmo evolutivo no qual os indivíduos são tratados como expressões simbólicas. A programação genética permite a geração de novas regras a partir de um conjunto preliminar de regras definidas por um especialista. O erro de classificação obtido sobre um conjunto de exemplos já rotulados é utilizado como função de avaliação. O conjunto de treinamento utilizado para avaliar os indivíduos é o corpus BioCreAtIvE-PPI, que contém informações textuais sobre interações entre proteínas e/ou genes.
Referências
FUNDEL, K.; KÜFFNER, R. & ZIMMER, R. (2007). “Relex relation extraction using dependency parse trees” Bioinformatics, 23(3): 365-371
HAKENBERG, J.; BICKEL, S.; PLAKE, C.; BREFELD, U.; ZAHN, H.; FAULSTICH, L.; LESER, U. & SCHEFFER, T. (2005). “Systematic feature evaluation for gene name recognition”, BMC Bioinformatics, 6(1): 1471-2105.
LEHNINGER, A. L.; NELSON, D. L. & COX, M. M. (2005). “Lehninger Principles Of Biochemistry”. New York: Freeman, 4th edition.
POLI, R.; LANGDON, W. B & MCPHEE, N. F. (2008). “A field guide to genetic programming”. Published via [link] and freely available at [link].
PLAKE, C.; HAKENBERG, J. & LESER, U. (2005). “Optimizing syntax patterns for protein-protein interactions”, In the Proc. of the 2005 ACM Symp. on Applied Computing, 195-201.