Etiquetagem de Palavras para o Português do Brasil
Resumo
Neste trabalho, são investigados recursos de software e de corpus para desenvolver um etiquetador para o Português do Brasil que alcance uma acurácia superior a 99%. Centrado em uma solução híbrida, o artigo apresenta um estudo exploratório variando o componente probabilístico, o número de etiquetas e o número de regras.Referências
Bick, E. (1996). “Automatic Parsing of Portuguese”, In: Anais do II Encontro para Processamento Computacional do Português Escrito e Falado. Curitiba, 1996. p. 91-100.
Harb, M. P. A. A., Brito, S. R., Silva, A. S., Favero, E. L., Tavares, O. L., Francês, C. R. L. (2003). “AmAm: ambiente de aprendizagem multiparadigmático”, In: Simpósio Brasileiro de Informática na Educação. Rio de Janeiro: NCE-IM-UFRJ.
Kinoshita, J., Salvador, L. N., Menezes, C. E. D. (2006). “CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus”, In: The fifth international conference on Language Resources and Evaluation, LREC 2006. Genova, Italy.
Linguateca (2007). “Linguateca, centro de recursos -distribuído -para o processamento computacional da língua portuguesa”, Disponível em: [link]. Acesso em: 12/02/2007.
Mason, O. (2006). “QTAG”, Disponível em: [link]. Acesso em: 12/06/2006.
Schmid, H. (1994). “Probabilistic part-of-speech tagging using decision trees”, In: Proceedings of the Conference on New Methods in Language Processing, p. 44-49, Manchester, UK.
Witten, I.H and Frank, E. (2005). “Data Mining: Practical machine learning tools and techniques”, Morgan Kaufmann, 2nd Edition, San Francisco.
Harb, M. P. A. A., Brito, S. R., Silva, A. S., Favero, E. L., Tavares, O. L., Francês, C. R. L. (2003). “AmAm: ambiente de aprendizagem multiparadigmático”, In: Simpósio Brasileiro de Informática na Educação. Rio de Janeiro: NCE-IM-UFRJ.
Kinoshita, J., Salvador, L. N., Menezes, C. E. D. (2006). “CoGrOO: a Brazilian-Portuguese Grammar Checker based on the CETENFOLHA Corpus”, In: The fifth international conference on Language Resources and Evaluation, LREC 2006. Genova, Italy.
Linguateca (2007). “Linguateca, centro de recursos -distribuído -para o processamento computacional da língua portuguesa”, Disponível em: [link]. Acesso em: 12/02/2007.
Mason, O. (2006). “QTAG”, Disponível em: [link]. Acesso em: 12/06/2006.
Schmid, H. (1994). “Probabilistic part-of-speech tagging using decision trees”, In: Proceedings of the Conference on New Methods in Language Processing, p. 44-49, Manchester, UK.
Witten, I.H and Frank, E. (2005). “Data Mining: Practical machine learning tools and techniques”, Morgan Kaufmann, 2nd Edition, San Francisco.
Publicado
30/06/2007
Como Citar
DOMINGUES, Miriam L.; FAVERO, Eloi L.; MEDEIROS, Ivo P..
Etiquetagem de Palavras para o Português do Brasil. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 5. , 2007, Rio de Janeiro/RJ.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2007
.
p. 1721-1724.
