Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português
Resumo
A quantidade de textos gerados diariamente na web torna cada vez mais difícil a análise e extração de informações desses dados. Retirar informação útil de forma automática de textos é uma tarefa difícil, dada a complexidade e infinidade de formas com que as pessoas podem se expressar utilizando a linguagem natural. A tarefa de Extração de Informação Aberta tem o papel de automatizar o processamento de repositórios tais como a Web. Esta abordagem pode ser classificada em duas etapas: (i) extração e (ii) classificação. A proposta desse trabalho é, na etapa de classificação, utilizar um conjunto de features genéricas que não contém termos presentes em um idioma específico. Experimentos foram realizados em Português do Brasil nos quais as features genéricas obtiveram uma acurácia média de 70% contra 55% das features propostas em [Fader et al. 2011].