Proposta e Análise de Desempenho de Dois Métodos de Seleção de Características para Random Forests

  • Denise Bastos Universidade de São Paulo
  • Patricia Nascimento Universidade de São Paulo
  • Marcelo Lauretto Universidade de São Paulo

Resumo


Em aprendizado supervisionado, é comum a ocorrência de bases de dados contendo atributos irrelevantes. Sob tais circunstâncias, a adoção de critérios de seleção de características relevantes para a classificação é fundamental, principalmente nos problemas em que os custos de coleta de dados são proporcionais à quantidade de atributos. Neste artigo, propomos dois critérios de seleção de atributos voltados para Random Forests, denominados Fator de Incidência (FI) e Fator de Profundidade (FP). Testes comparativos indicam que o FP é um critério robusto, com desempenho superior ao da Importância Baseada no Erro (IE) e equivalente ao da Importância de Gini (IG) – os dois principais critérios para Random Forests atualmente em uso.

Referências

Altmann, A., Tolosi, L., Sander, O., and Lengauer, T. (2010). Permutation importance: a corrected feature importance measure. Bioinformatics, 26(10):1340–1347.

Breiman, L. (1996a). Bagging predictors. Machine Learning, 24:123–140.

Breiman, L. (1996b). Out-of-bag estimation. Technical report, Technical report, Statistical Department, University of California Berkeley, Berkeley CA.

Breiman, L. (2001). Random forests. Machine Learning, 45:5–32.

Breiman, L., Freadman, J., Olshen, R., and Stone, C. (1984). Classication and Regression Trees. Wadsworth International, CA.

Frank, A. and Asuncion, A. (2010). Uci machine learning repository.

Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157–1182.

He, H., III, H. D., and Eisner, J. (2012). Cost-sensitive dynamic feature selection. In International Conference on Machine Learning (ICML) workshop on Inferning: Inte- ractions be- tween Inference and Learning, Edinburgh, Scotland.

Inza, I., Calvo, B., nanzas, R. A., Bengoetxea, E., naga, P. L., and Lozano, J. A. (2010). Machine learning: An indispensable tool in bioinformatics. In Matthiesen, R., editor, Bioinformatics Methods in Clinical Research, volume 593 of Methods in Molecular Biology, chapter 2, pages 25–48. Humana Press.

Liaw, A. and Wiener, M. (2002). Classication and regression by randomforest. R News, 2(3):18–22.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, Redmond, WA.

R Core Team (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
Publicado
22/05/2013
BASTOS, Denise; NASCIMENTO, Patricia; LAURETTO, Marcelo. Proposta e Análise de Desempenho de Dois Métodos de Seleção de Características para Random Forests. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 9. , 2013, João Pessoa. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2013 . p. 49-60. DOI: https://doi.org/10.5753/sbsi.2013.5675.