Normalizador de Texto para Língua Portuguesa baseado em Modelo de Linguagem

  • Patrick Thiago Bard PUCRS
  • Renan Lopes Luis PUCRS
  • Silvia Maria Wanderley Moraes PUCRS

Resumo


O processamento automático de textos gerados pelo usuário na internet têm sido um grande desafio. A escrita informal é uma das razões dessa dificuldade. Essa informalidade têm motivado a pesquisa por métodos para normalização de textos. A normalização de texto é uma etapa que precede o processamento usual, convertendo o texto gerado pelo usuário em um formato 'padrão' (mais formal). Neste trabalho, prototipamos um normalizador para a Língua Portuguesa que é baseado em modelo de linguagem. Nessa abordagem, usamos a técnica de tradução automática para normalizar os textos. Testamos nosso normalizador em um corpus sobre política e comparamos os resultados obtidos com os de outro normalizador.

Publicado
02/10/2017
BARD, Patrick Thiago; LUIS, Renan Lopes; MORAES, Silvia Maria Wanderley. Normalizador de Texto para Língua Portuguesa baseado em Modelo de Linguagem. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 1. , 2017, Uberlândia/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 142-150.