Tesauros Distribucionais para o Português: avaliação de metodologias
Resumo
Nas últimas décadas, houve um crescente interesse em métodos para a construção automática de tesauros distribucionais a partir de corpora. Esforços para a avaliação e aprimoramento sistemáticos dos recursos resultantes têm sido feitos para línguas como o inglês e o francês, mas, para o português, há ainda uma necessidade de tais iniciativas. Este artigo apresenta uma investigação comparativa entre dois métodos para construção de tesauros: baseados em contagens e preditivos, com foco no português. Para avaliação, é proposto um teste similar ao TOEFL para o português, o Brazilian BabelNet-based Semantic Gold Standard (B2SG), que contém questões automaticamente geradas a partir do BabelNet, com foco em substantivos e verbos.