Sequenciamento de algoritmos de amostragem para aumentar o desempenho de classificadores em conjuntos de dados desequilibrados

  • Gian Barbosa UFRPE
  • Péricles de Miranda UFRPE
  • Rafael Mello UFRPE
  • Ricardo Silva UFPE

Resumo


As técnicas de amostragem desempenham um papel essencial na ajuda aos classificadores que aprendem com conjuntos de dados desbalanceados, uma vez que essas técnicas retornam uma versão mais balanceada do conjunto de dados desbalanceados. Under sampling reduz o número de exemplos da classe majoritária para equilibrar o número de exemplos de cada classe. Isso pode fazer com que exemplos relevantes sejam excluídos. Over sampling geralmente usa todos os exemplos disponíveis na classe minoritária para sintetizar novas instâncias, que podem incluir dados ruidosos ou outliers. Assim, dependendo da natureza dos dados, o uso de um algoritmo de um tipo ou outro pode impactar negativamente o desempenho do classificador. Este artigo propõe o 'Sequenciamento de Algoritmos de Amostragem', que permite a composição de diferentes algoritmos de amostragem em um pipeline, para o balanceamento de dados. Os resultados mostraram que a proposta foi capaz de obter acurácia e F1 score médios estatisticamente maiores quando comparados aos das abordagens de amostragem tradicionais e híbridas, na maioria dos problemas desbalanceados selecionados.

Palavras-chave: Algoritmos de amostragem, Dados desbalanceados, Classificação

Referências

Batista, G. E., Prati, R. C., and Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter, 6(1):20–29.

de Morais, R. F. and Vasconcelos, G. C. (2019). Boosting the performance of over-sampling algorithms through under-sampling the minority class. Neurocomputing, 343:3–18.

García, S., Fernández, A., Luengo, J., and Herrera, F. (2010). Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining: Experimental analysis of power. Information Sciences, 180(10):2044–2064.

Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H., and Bing, G. (2016). Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications.

He, H. and Garcia, E. A. (2009). Learning from imbalanced data. IEEE Trans. on Knowl. and Data Eng., 21(9):1263–1284.

Lemaître, G., Nogueira, F., and Aridas, C. K. (2017). Imbalancedlearn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. Journal of Machine Learning Research, 18(17):1–5.

Lichman, M. (2013). UCI machine learning repository.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al. (2011). Scikit-learn: Machine learning in python. Journal of machine learning research, 12(Oct):2825–2830.

Ramentol, E., Gondres, I., Lajes, S., Bello, R., Caballero, Y., Cornelis, C., and Herrera, F. (2016). Fuzzy-rough imbalanced learning for the diagnosis of high voltage circuit breaker maintenance: The smote-frst-2t algorithm. Engineering Applications of Artificial Intelligence, 48:134–139.

Rivera,W. A. (2017). Noise reduction a priori synthetic over-sampling for class imbalanced data sets. Information Sciences, 408:146–161.

Sáez, J. A., Luengo, J., Stefanowski, J., and Herrera, F. (2015). Smote–ipf: Addressing the noisy and borderline examples problem in imbalanced classification by a re-sampling method with filtering. Information Sciences, 291:184–203.

Van Hulse, J., Khoshgoftaar, T. M., and Napolitano, A. (2007). Experimental perspectives on learning from imbalanced data. In Proceedings of the 24th international conference on Machine learning, pages 935–942. ACM.

Wang, S. and Yao, X. (2013). Using class imbalance learning for software defect prediction. IEEE Transactions on Reliability, 62(2):434–443.

Woods, K. S., DOSS, C. C., BOWYER, K. W., SOLKA, J. L., PRIEBE, C. E., and KEGELMEYER JR, W. P. (1993). Comparative evaluation of pattern recognition techniques for detection of microcalcifications in mammography. International Journal of Pattern Recognition and Artificial Intelligence, 7(06):1417–1436.
Publicado
15/10/2019
BARBOSA, Gian; MIRANDA, Péricles de; MELLO, Rafael; SILVA, Ricardo. Sequenciamento de algoritmos de amostragem para aumentar o desempenho de classificadores em conjuntos de dados desequilibrados. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 16. , 2019, Salvador. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 413-423. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2019.9302.