A Importância dos Falsos Homógrafos para a Correção Automática de Erros Ortográficos em Português

  • Magali Sanches Duran USP
  • Lucas Vinícius Avanço USP
  • Maria das Graças Volpe Nunes USP

Resumo


Este artigo relata a análise de 25.722 pares de palavras em português que só diferem por um acento. Essas palavras são denominadas aqui de “falsos homógrafos” e são relevantes para a correção de erros ortográficos, pois nesses casos uma palavra incorreta à qual falta um acento é idêntica a uma forma correta na língua, o que impede a identificação do erro e sua consequente correção. O propósito da análise é identificar pares em que a forma não acentuada tenha baixa frequência e a forma acentuada tenha alta frequência, e assim excluir, do léxico que servirá de base para o corretor ortográfico, as formas pouco frequentes. Essa proposta justifica-se especialmente quando se almeja a correção ortográfica de Conteúdo Gerado por Usuários na web (CGU), um tipo de texto caracterizado, entre outras coisas, pela falta de acentos. O resultado é uma lista de 2.052 palavras que atendem às condições da estratégia pretendida.

Publicado
04/11/2015
Como Citar

Selecione um Formato
DURAN, Magali Sanches; AVANÇO, Lucas Vinícius; NUNES, Maria das Graças Volpe. A Importância dos Falsos Homógrafos para a Correção Automática de Erros Ortográficos em Português. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 1. , 2015, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 265-273.