Desambiguação de Homógrafos-Heterófonos por Aprendizado de Máquina em Português Brasileiro
Resumo
Para aprimorar a qualidade da voz produzida por um sistema de conversão texto-fala, é importante extrair a maior quantidade possível de informação, que possa ajudar nessa tarefa, a partir do texto de entrada. Nesse contexto, a desambiguação da pronúncia relativa a pares de homógrafos-heterófonos (HHs) assume um papel relevante e ainda de difícil tratamento em aplicações que envolvem processamento de linguagem natural. Este trabalho propõe modelar a ambiguidade entre HHs falados no Brasil como um problema de aprendizado de máquina supervisionado. Para isso, quatro algoritmos (ou classificadores) foram comparados em bases de texto de diferentes tipos. Experimentos mostraram que para garantir a portabilidade de sistemas, um processo de incremento para o novo domínio é necessário.