n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos

  • Guilherme T. Guimarães PUCRS
  • Marcus V. Meirose PUCRS
  • Sílvia M. W. Moraes PUCRS

Resumo


Este artigo descreve um estudo em categorização de textos que utiliza n-gramas de caractere como método de normalização morfológica. Em trabalhos recentes, essa abordagem tem surgido como uma forma de simplificar a normalização dos termos. Em nossa investigação, comparamos essa abordagem a métodos usuais de normalização como stemming e lematização. Em nossos casos de estudo, usamos um subconjunto do corpus em PLN-BR CATEG e o algoritmo de classificação SMO da ferramenta Weka. Os resultados obtidos mostram que a abordagem de n-grama por caractere é promissora.

Publicado
04/11/2015
GUIMARÃES, Guilherme T.; MEIROSE, Marcus V.; MORAES, Sílvia M. W.. n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 1. , 2015, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 211-220.