Etiquetagem de Palavras para o Português do Brasil

  • Miriam L. Domingues UFPA
  • Eloi L. Favero UFPA
  • Ivo P. Medeiros UFPA

Resumo


Neste trabalho, são investigados recursos de software e de corpus para desenvolver um etiquetador para o Português do Brasil que alcance uma acurácia superior a 99%. Centrado em uma solução híbrida, o artigo apresenta um estudo exploratório variando o componente probabilístico, o número de etiquetas e o número de regras.

Referências

Bick, E. (1996). “Automatic Parsing of Portuguese”, In: Anais do II Encontro para Processamento Computacional do Português Escrito e Falado. Curitiba, 1996. p. 91-100.

Harb, M. P. A. A., Brito, S. R., Silva, A. S., Favero, E. L., Tavares, O. L., Francês, C. R. L. (2003). “AmAm: ambiente de aprendizagem multiparadigmático”, In: Simpósio Brasileiro de Informática na Educação. Rio de Janeiro: NCE-IM-UFRJ.

Kinoshita, J., Salvador, L. N., Menezes, C. E. D. (2006). “CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus”, In: The fifth international conference on Language Resources and Evaluation, LREC 2006. Genova, Italy.

Linguateca (2007). “Linguateca, centro de recursos -distribuído -para o processamento computacional da língua portuguesa”, Disponível em: [link]. Acesso em: 12/02/2007.

Mason, O. (2006). “QTAG”, Disponível em: [link]. Acesso em: 12/06/2006.

Schmid, H. (1994). “Probabilistic part-of-speech tagging using decision trees”, In: Proceedings of the Conference on New Methods in Language Processing, p. 44-49, Manchester, UK.

Witten, I.H and Frank, E. (2005). “Data Mining: Practical machine learning tools and techniques”, Morgan Kaufmann, 2nd Edition, San Francisco.
Publicado
30/06/2007
DOMINGUES, Miriam L.; FAVERO, Eloi L.; MEDEIROS, Ivo P.. Etiquetagem de Palavras para o Português do Brasil. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 5. , 2007, Rio de Janeiro/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2007 . p. 1721-1724.