Proposta de um Algoritmo para Indução de Árvores de Classificação para Dados Desbalanceados
Resumo
Entre as ferramentas de mineração de dados disponíveis nos sistemas de apoio à decisão e ambientes de Business Intelligence, as árvores de classificação possuem as vantagens da simplicidade conceitual e da interpretabilidade. Todavia, são comuns problemas de classificação nos quais os dados são desbalanceados, e as classes minoritárias tendem a ser negligenciadas por algoritmos baseados em minimização de erro global. Neste trabalho propomos um novo algoritmo de indução de árvores de classificação para tratamento de dados desbalanceados, com baixa necessidade de parametrização pelo usuário. Resultados preliminares mostram boas taxas médias de erros intra-classes do método em relação a outros competidores.
Referências
Breiman L., Friedman J., Stone C. J. e Olshen R. A. (1984). Classication and Regression Trees, Chapman and Hall.
Chen M., Han J. e Yu P. S. (1996). Data Mining: An Overview from Database Perspective.
IEEE Xplore Digital Library 15(6), 866-883 Frank A., Asuncion A. (2010). “UCI Machine Learning Repository”. University of California, Irvine, School of Information and Computer Sciences. http://archive.ics.uci.edu/ml
Gama J. (2004). Functional Trees. Machine Learning 55, 219-250.
Hornik K., Buchta C., Zeileis A. (2009) Open-Source Machine Learning: R Meets Weka. Computational Statistics 24(2), 225-232.
DeGroot M.H. (1986). Probability and Statistics, 2nd Ed. Menlo Park, CA: Addison Wesley 161-205.
Hothorn T., Hornik K. and Zeileis A. (2006). Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics 15(3), 651-674.
Landwehr N., Hall M. e Frank E. (2005). Logistic Model Trees. Machine Learning 59, Lauretto, M.S. (1996). Árvores de Classicação para Escolha de Estratégias de Operação em Mercados de Capitais. Dissertação de Mestrado, Instituto de Matemática e Estatística, Universidade de São Paulo.
Microsoft (2006). “SQL Server 2005 Analysis Services Tutorial”. http: //msdn.microsoft.com/en-US/library/ms170208$\%$28v=sql.90$\%$29.aspx
Mingers, J. (1989). An Empirical Comparison of Selection Measures for Decision-Tree Induction, Machine Learning 3, 319-342.
Mitchell, T.M. (1997). Machine Learning. McGraw-Hill.
Morais D.C.S., Morais B.C.S., Menezes Junior J.V. e Gusmão C.M.G. (2012). Sistema Móvel de Apoio a Decisão Médica Aplicado ao Diagnóstico de Asma InteliMED. In VIII Simpósio Brasileiro de Sistemas de Informação, São Paulo, 2012.
Paulino C.D., Turkman M.A.A., Murteira B. (2003). Estatística Bayesiana. Fundação Calouste Gulbenkian, Lisboa.
Pham-Gia T. (2007). Distributions of the ratios of independent beta variables and applications. Communications in Statistics Theory and Methods 29(12), 2693–2715.
Quinlan J. R. (1993). C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc. San Francisco, CA, USA.
R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
Qiao X., Liu Y. (2009). Adaptive weighted learning for unbalanced multicategory classication. Biometrics 65 159-168.
Stern, J. M., Nakano, F., Lauretto, M. S. & Ribeiro, C. O. (1998). Algoritmo de Aprendizagem para Atributos Reais e Estratégias de Operação em Mercado. In: Sixth Iberoamerican Conference on Articial Intelligence IBERAMIA’98, Lisboa.
Therneau T., Atkinson B. and Ripley B. (2012). rpart: Recursive Partitioning. R package version 3.1-55. http://CRAN.R-project.org/package=rpart
Thrun, S.B.; Bala, J.; Bloedorn, E.; Bratko, I.; Cestnik, B.; Cheng, J.; De Jong, K.; Dzeroski, S.; Fahlman, S.E.; Fisher, D.; Hamann, R.; Kaufman, K.; Keller, S.; Kononenko, I.; Kreuziger, J.; Michalski, R.S.; Mitchell, T.; Pachowicz, P.; Reich, Y.; Vafaie, H.; Van de Welde, W.; Wenzel, W.; Wnek, J.; Zhang, J. (1991) “The MONK’s Problems A Performance Comparison of Different Learning algorithms”. Technical Report CS-CMU-91-197, Carnegie Mellon University.
Vêncio R.Z.N., Brentani H., Pereira C.A.B. (2003). Using credibility intervals instead of hypothesis tests in SAGE analysis. Bioinformatics 19(18), 2461–2464.