Um Modelo Temporal-Relacional para Classificação de Documentos

  • Fernando Mourão UFMG
  • Wagner Meira Jr. UFMG

Resumo


Classificação Automática de Documentos (CAD) é uma das mais relevantes tarefas em Recuperação de Informação. Apesar do grande número de propostas para CAD, ainda há uma demanda por técnicas eficazes e eficientes que consideram relacionamentos entre termos. Neste trabalho, propomos um novo modelo relacional para documentos textuais e introduzimos uma família de algoritmos relacionais para CAD que consideram a evolução temporal dos documentos. Avaliações experimentais mostram que tais algoritmos alcançam resultados comparáveis ao SVM em quatro coleções reais. Além disso, sua simplicidade, eficiência, bem como a eliminação de um complexo ajuste de parâmetros tornam nosso algoritmo uma alternativa interessante ao SVM.

Referências

Macskassy, S. A. and Provost, F. (2007). Classification in networked data: A toolkit and a univariate case study. Journal of Machine Learning Research, 8:935–983.

Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.

McCallum, A. K. (1996). Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering. [link].

Montejo-Raez, A., Urena-Lopez, L. A., Garcia-Cumbreras, M. A., and Perea-Ortega, J. M. (2008). Using linguistic information as features for text categorization. In Proc. of the MMDSS, Varese, Italy. Ios Press Inc.

Mourão, F. (2009). Um modelo temporal-relacional para classificação de documentos. Master’s thesis, UFMG. Disponível em [link].

Mourão, F., Rocha, L., Miranda, L., A., V., and Meira Jr., W. (2009). Quantifying the impact of information aggregation on complex networks: A temporal perspective. In Proc. of the 6th WAW, Barcelona, Spain.

Rocha, L., Mourão, F., Pereira, A., Gonçalves, M., and Meira Jr, W. (2008). Exploiting temporal contexts in text classification. In Proc. of the 17th CIKM, CA, USA. ACM.
Publicado
20/07/2010
MOURÃO, Fernando; MEIRA JR., Wagner. Um Modelo Temporal-Relacional para Classificação de Documentos. In: CONCURSO DE TESES E DISSERTAÇÕES (CTD), 23. , 2010, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2010 . p. 65-72. ISSN 2763-8820.