RePort - Um Sistema de Extração de Informações Aberta para Língua Portuguesa
Resumo
Um campo emergente de pesquisa em Processamento de Linguagem Natural (PLN) propõe Sistemas de Extração de Informações Abertos (Open Information Extraction System - Open IE) que segue um paradigma de extração independente de domínio que utiliza padrões genéricos para extrair todas as relações entre entidades. Neste trabalho apresentamos RePort, um método de Open IE para língua portuguesa, baseado na abordagem ReVerb para o inglês. Foram realizadas adaptações das regras sintáticas e lexicais para o português, usando conhecimento linguístico e um léxico de relações verbais extraído de um corpus. A metodologia de avaliação consistiu de dois experimentos, onde avaliadores humanos indicaram 81% de acurácia para as relações extraídas pelo RePort, e o segundo experimento mostrou 77% de similaridade entre as relações verbais extraídas pelo RePort e suas relações correlatas, extraídas pelo ReVerb (dos textos traduzidos em inglês).