BERT: Melhorando Classificação de Texto com Árvores Extremamente Aleatórias, Bagging e Boosting

Raphael R. Campos; Marcos A. Gonçalves

doi:10.5753/sbbd.2016.24316

Raphael R. Campos Universidade Federal de Minas Gerais
Marcos A. Gonçalves Universidade Federal de Minas Gerais

DOI: https://doi.org/10.5753/sbbd.2016.24316

Resumo

Um dos métodos mais eficazes para classificação de texto é o recém-proposto BROOF, uma versão Boosting da Floresta Aleatória (FA). Nesse artigo, nós propomos melhorar o método BROOF explorando Árvores Extremamente Aleatórias (AEA) como um “aprendiz fraco” no arcabouço do boosting. Nesse contexto, nós introduzimos o procedimento de Bagging nos modelos de AEA de modo que possamos estimar melhor o erro Out-of-Bag (OOB) se comparado ao BROOF original. Nossos experimentos com vários conjuntos de dados textuais e nove classificadores estado-da-arte, mostram que o método proposto (BERT) está dentre os classificadores com melhores desempenhos em todos os conjuntos de dados testados, saindo-se melhor que o BROOF em vários casos.

Palavras-chave: Métodos de classificação, BROOF, Árvores Extremamente Aleatórias, Bagging

Referências

Breiman, L. (1996). Bagging predictors. Mach. Learn., 24(2):123–140.

Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32.

Fernández-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems? J. Mach. Learn. Res., 15(1):3133–3181.

Freund, Y. and Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci., 55(1):119–139.

Geurts, P., Ernst, D., and Wehenkel, L. (2006). Extremely randomized trees. Machine Learning, 63(1):3–42.

Hastie, T., Tibshirani, R., and Friedman, J. H. (2009). The Elements of Statistical Learning. Springer.

Salles, T., Gonçalves, M., Rodrigues, V., and Rocha, L. (2015). Broof: Exploiting out-of-bag errors, boosting and random forests for effective automated classification. In Proc. of the 38th International ACM SIGIR Conference on Inf. Retrieval, pages 353–362.

Segal, M. R. (2004). Machine learning benchmarks and random forest regression. Technical report, University of California.