Proposta e Análise de Desempenho de Dois Métodos de Seleção de Características para Random Forests
Resumo
Em aprendizado supervisionado, é comum a ocorrência de bases de dados contendo atributos irrelevantes. Sob tais circunstâncias, a adoção de critérios de seleção de características relevantes para a classificação é fundamental, principalmente nos problemas em que os custos de coleta de dados são proporcionais à quantidade de atributos. Neste artigo, propomos dois critérios de seleção de atributos voltados para Random Forests, denominados Fator de Incidência (FI) e Fator de Profundidade (FP). Testes comparativos indicam que o FP é um critério robusto, com desempenho superior ao da Importância Baseada no Erro (IE) e equivalente ao da Importância de Gini (IG) – os dois principais critérios para Random Forests atualmente em uso.
Referências
Breiman, L. (1996a). Bagging predictors. Machine Learning, 24:123–140.
Breiman, L. (1996b). Out-of-bag estimation. Technical report, Technical report, Statistical Department, University of California Berkeley, Berkeley CA.
Breiman, L. (2001). Random forests. Machine Learning, 45:5–32.
Breiman, L., Freadman, J., Olshen, R., and Stone, C. (1984). Classication and Regression Trees. Wadsworth International, CA.
Frank, A. and Asuncion, A. (2010). Uci machine learning repository.
Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157–1182.
He, H., III, H. D., and Eisner, J. (2012). Cost-sensitive dynamic feature selection. In International Conference on Machine Learning (ICML) workshop on Inferning: Inte- ractions be- tween Inference and Learning, Edinburgh, Scotland.
Inza, I., Calvo, B., nanzas, R. A., Bengoetxea, E., naga, P. L., and Lozano, J. A. (2010). Machine learning: An indispensable tool in bioinformatics. In Matthiesen, R., editor, Bioinformatics Methods in Clinical Research, volume 593 of Methods in Molecular Biology, chapter 2, pages 25–48. Humana Press.
Liaw, A. and Wiener, M. (2002). Classication and regression by randomforest. R News, 2(3):18–22.
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, Redmond, WA.
R Core Team (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.