Normalizador de Texto para Língua Portuguesa baseado em Modelo de Linguagem
Resumo
O processamento automático de textos gerados pelo usuário na internet têm sido um grande desafio. A escrita informal é uma das razões dessa dificuldade. Essa informalidade têm motivado a pesquisa por métodos para normalização de textos. A normalização de texto é uma etapa que precede o processamento usual, convertendo o texto gerado pelo usuário em um formato 'padrão' (mais formal). Neste trabalho, prototipamos um normalizador para a Língua Portuguesa que é baseado em modelo de linguagem. Nessa abordagem, usamos a técnica de tradução automática para normalizar os textos. Testamos nosso normalizador em um corpus sobre política e comparamos os resultados obtidos com os de outro normalizador.