Um Estudo sobre Categorização Hierárquica de uma Grande Coleção de Textos em Língua Portuguesa

  • Silvia Maria Wanderley Moraes PUCRS
  • Vera Lúcia Strube de Lima PUCRS

Resumo


Este artigo apresenta um estudo sobre categorização hierárquica de documentos que utiliza o algoritmo k-Nearest Neighbor para classificar uma grande coleção de textos escritos em língua portuguesa, o corpus PLN-BR CATEG. Além de descrever as principais dificuldades encontradas para a realização dos experimentos e para a análise dos resultados, este trabalho estuda de forma experimental a influência de determinados parâmetros no processo de categorização.

Referências

Bang, S. L, Yang, J.D e Yang, H. J. (2006) “ Hierarchical Document Categorization with k-NN and concept-based thesauri”, Information Processing & Management, No 42, Elsevier, p. 387-406.

Cesa-Bianchi, N., Gentile, C. e Zaniboni, L. (2006) “Hierarchical Classification: Combining Bayes with SVM”, In: 23rd International Conference on Machine Learning, Proceedings…, Pittsburgh, PA, p. 177-183.

Gonzalez, M., Lima, V.L.S. e Lima, J.V. (2006) “Tools for Nominalization: an Alternative for Lexical Normalization”, In: Workshop on Comp. Proc. Of Portuguese Lang – Written and Spoken, 7; PROPOR, 2006, Proceedings…, Springer-Verlag, p.100-109.

Hoi, S.C.H, Jin, R. e Lyu, M.R. (2006) “Large-Scale Text Categorization by Batch Mode Active Learning”, In International World Wide Web Conference (WWW 2006), Edinburgh, Scotland, ACM.

Langie, L. C. (2004) “Um Estudo sobre a Aplicação do algoritmo k-NN à Categorização Hierárquica de Textos”. Dissertação de Mestrado. Faculdade de Informática, PUCRS, 126 p.

Lavelli, A., Sebastiani, F. e Zanoli, R. (2004) “Distributional Term Representations: An Experimental Comparison” In: ACM International Conference on Information and Knowledge Management, Proceedings…, ACM, Washington, USA, p. 615-624.

Olsson, J.S. (2006) “An Analysis of Coupling between Training Set and Neighborhood Sizes for the kNN Classifier”, SIGIR’06, Seattle, Washington, USA.

Sebastiani, F. (2002) “Machine Learning in Automated Text Categorization”, ACM Computing Surveys, vol.34, No. 1, p. 1-47.

Sebastiani, F. (2006) “Classification of text, automatic”, In Keith Brown (ed.), The Encyclopedia of Language and Linguistics, vol. 14, 2a edição, Elsevier Science Publishers, Amsterdam, NL, p. 457-462.

Sun, A. e Lim, E. (2001) “Hierarchical Text Classification and Evaluation”, In: IEEE International Conference on Data Mining, Proceedings…, Califórnia, USA, p.521-528.

Yang, Y. e Liu, X. (1999) “A re-examination of text categorization methods”. In : International Conference on Research and Development in Information Retrieval (SIGIR’99), Proceedings…, Berkeley, CA, USA, p.42-49.
Publicado
30/06/2007
MORAES, Silvia Maria Wanderley; LIMA, Vera Lúcia Strube de. Um Estudo sobre Categorização Hierárquica de uma Grande Coleção de Textos em Língua Portuguesa. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 5. , 2007, Rio de Janeiro/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2007 . p. 1659-1668.