Seleção de Atributos Agressiva e Efetiva usando Programação Genética
Resumo
Um dos grandes desafios em classificação automática é lidar com cenários de alta dimensionalidade. Várias estratégias de redução de dimensionalidade, incluindo métricas populares de seleção de atributos, já foram propostas, entretanto sem se mostrar adequadas para casos em que os dados são muito desbalanceados. Assim, apresentamos nesse trabalho uma proposta baseada em Programação Genética que visa combinar os resultados de diferentes métricas de seleção de atributos em novos conjuntos, obtendo uma estimativa menos tendenciosa do poder discriminativo de cada atributo. Por meio dessa estimativa conseguimos reduzir a dimensionalidade de forma mais adequada, obtendo resultados de classificação mais precisos.Referências
Danziger, S. A., Baronio, R., Ho, L., Hall, L., Salmon, K., Hatfield, G. W., Kaiser, P., and Lathrop, R. H. (2009). Predicting positive p53 cancer rescue regions using most informative positive (mip) active learning. PLoS Comput Biol, 5(9):e1000498.
Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. The Journal of Machine Learning Research, 3:1289–1305.
Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Springer Series in Statistics. Springer New York Inc., New York, NY, USA.
Koza, J. R. (1992). Genetic Programming: On the Programming of Computers by Means of Natural Selection (Complex Adaptive Systems). Cambridge, MA, USA.
Lewis, D. D. (1995). Evaluating and optimizing autonomous text classification systems. In Eighteenth Annual, International ACM-SIGIR Conference, pages 264–254.
Mladenic, D. (1998). Machine learning on non-homogeneous, distributed text data. PhD thesis, University of Ljubljana, Faculty of Computer and Information Science.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34:1–47.
Weinbrenner, T. (1997). Genetic programming techniques applied to measurement data. Diploma Thesis.
Zheng, Z., Wu, X., and Srihari, R. (2004). Feature selection for text categorization on imbalanced data. ACM SIGKDD Explorations Newsletter, 6:80–89.
Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. The Journal of Machine Learning Research, 3:1289–1305.
Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning. Springer Series in Statistics. Springer New York Inc., New York, NY, USA.
Koza, J. R. (1992). Genetic Programming: On the Programming of Computers by Means of Natural Selection (Complex Adaptive Systems). Cambridge, MA, USA.
Lewis, D. D. (1995). Evaluating and optimizing autonomous text classification systems. In Eighteenth Annual, International ACM-SIGIR Conference, pages 264–254.
Mladenic, D. (1998). Machine learning on non-homogeneous, distributed text data. PhD thesis, University of Ljubljana, Faculty of Computer and Information Science.
Sebastiani, F. (2002). Machine learning in automated text categorization. ACM Computing Surveys, 34:1–47.
Weinbrenner, T. (1997). Genetic programming techniques applied to measurement data. Diploma Thesis.
Zheng, Z., Wu, X., and Srihari, R. (2004). Feature selection for text categorization on imbalanced data. ACM SIGKDD Explorations Newsletter, 6:80–89.
Publicado
16/07/2012
Como Citar
VIEGAS, Felipe; SANDIN, Isac; SALLES, Thiago; ROCHA, Leonardo.
Seleção de Atributos Agressiva e Efetiva usando Programação Genética. In: CONCURSO DE TRABALHOS DE INICIAÇÃO CIENTÍFICA DA SBC (CTIC-SBC), 31. , 2012, Curitiba/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2012
.
p. 71-80.