Categorização de Textos da Língua Portuguesa com Árvores de Decisão, SVM e Informações Lingüísticas

  • Cassiana Fagundes da Silva Faculdade Seama
  • Renata Vieira UNISINOS

Resumo


Este artigo compara Árvores de Decisão (AD) e Support Vector Machines (SVM) para tarefas de categorização de textos baseada em informação lingüística. Mostramos que o uso de conhecimento lingüístico é útil na seleção de termos relevantes nas duas técnicas de aprendizado. Além disso, os experimentos mostram que árvores de decisão possuem um desempenho melhor do que SVM para um número de termos reduzido, e estabilizam-se a partir de um certo ponto, enquanto que o SVM atinge melhores resultados consistentemente com o aumento do número de termos utilizados no aprendizado.

Referências

Aizawa, A. (2001). Linguistic Techniques to Improve the Performance of Automatic Text Categorization in Proceedings of NLPRS-01, 6th Natural Language Processing Pacific Rim Symposium, Tokyo, JP, 2001, pp. 307-314.

Bick, E. (2000). The Parsing System PALAVRAS: Automatic Gramatical Analysis of Porutugese in a Constraint Grammar Framework. Århus University. Århus: Århus University Press.

Bick, E. (2003). A Constraint Grammar Based Question Answering System for Portuguese. Proceedings of the 11º Portuguese Conference on Artificial Intelligence, pages 414-418. LNAI Springer Verlag.

Boser, B. E.; Guyon, I. M. and Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. In D. Haussler, editor. Proceedings of the 5th Annual ACM Workshop on Computacionak Learning Theory, pp. 144-152. ACM Press, 1992.

Burges, C. J. C. (1998). A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2), pp. 121-167, 1998.

Christiani, N. and Shawe-Taylor, J. (2000). An Introduction to Support vector Machines. Cambridge U. P., 2000.

Gasperin, C.; Vieira, R.; Goulart, R. and Quaresma, P. (2003). Extracting XML Syntactic Chunks from Portuguese Corpora. Proc. of the TALN Workshop on Natural Language Processing of Minority Languages and Small Languages, pages 223-232. Batz-sur-Mer France.

Gonçalves, T.; Quaresma, P. (2003). A preliminary approach to the multilabel classification problem of Portuguese juridical documents. In F. Moura-Pires and S. Abreu, editors, 11th Portuguese Conference on Artificial Intelligence, EPIA 2003, LNAI 2902, pages 435–444, Évora, Portugal, December 2003. Springer-Verlag.

Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. 2nd edition. Pretince-Hall, 1999.

Moschitti, A; Basili, R. (2004). Complex Linguistic Features for Text Classification: A Comprehensive Study, Volume 2997/2004 Title: Advances in Information Retrieval: 26th European Conference on IR Research, ECIR 2004, Sunderland, UK, April 5-7, 2004. Proceedings Editors: Sharon McDonald, John Tait

Porter, M. F. (1980). An Algorithm for Suffix Stripping. Program, 14(3): 130-137, 1980.

Quinlan, J. R. (1986). Induction of Decision Trees. In Readings in Knowledge Acquisition and Learning, Bruce G. Buchnan & David C. Wilkins, Morgan Kaufmann, pp. 349-361, 1986.

Quinlan, J. R. (1993). C 4.5 : Programs for Machine Learning. San Mateo: Morgan Kufmann Publishers, 1993.

Sebastiani, F. (2002). Machine learning in automated text categorization, ACM Computing Surveys, 34 (2002), 1-47.

Silva, C.F, Vieira, R., Osório, F. e Quaresma, P. (2004). Mining linguistically interpreted texts. In Proceedings of the 5th International Workshop on Linguistically Interpreted Corpora, Geneva, Switzerland, August 2004.

Steinberg, D. and Colla, P. (1995). CART: Tree-Strutured Non_Parametric Data Analysis. Salford Systems, San Diego, CA. 1995.

Vapnik, V. (1995). The Nature of Statistical Learning Theory, Springer-Verlag, 1995.

Witten, I. H. (2000). Data mining: Pratical Machine Learning tools and techniques with Java implementations. Academic Press, 2000.
Publicado
30/06/2007
SILVA, Cassiana Fagundes da; VIEIRA, Renata. Categorização de Textos da Língua Portuguesa com Árvores de Decisão, SVM e Informações Lingüísticas. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 5. , 2007, Rio de Janeiro/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2007 . p. 1650-1658.