Sequenciamento de algoritmos de amostragem para aumentar o desempenho de classificadores em conjuntos de dados desequilibrados

  • Gian Barbosa UFRPE
  • Péricles Miranda UFRPE
  • Ricardo Silva UFPE
  • Rafael Mello Universidade Federal Rural de Pernambuco

Resumo


As técnicas de amostragem desempenham um papel essencial na ajuda aos classificadores que aprendem com conjuntos de dados desbalanceados, uma vez que essas técnicas retornam uma versão mais balanceada do conjunto de dados desbalanceados. Under sampling reduz o número de exemplos da classe majoritária para equilibrar o número de exemplos de cada classe. Isso pode fazer com que exemplos relevantes sejam excluídos. Over sampling geralmente usa todos os exemplos disponíveis na classe minoritária para sintetizar novas instâncias, que podem incluir dados ruidosos ou outliers. Assim, dependendo da natureza dos dados, o uso de um algoritmo de um tipo ou outro pode impactar negativamente o desempenho do classificador. Este artigo propõe o 'Sequenciamento de Algoritmos de Amostragem', que permite a composição de diferentes algoritmos de amostragem em um pipeline, para o balanceamento de dados. Os resultados mostraram que a proposta foi capaz de obter acurácia e F1 score médios estatisticamente maiores quando comparados aos das abordagens de amostragem tradicionais e híbridas, na maioria dos problemas desbalanceados selecionados.

Palavras-chave: Algoritmos de amostragem, Dados desbalanceados, Classificação

Referências

[Batista et al. 2004] Batista, G. E., Prati, R. C., and Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter, 6(1):20–29.

[de Morais and Vasconcelos 2019] de Morais, R. F. and Vasconcelos, G. C. (2019). Boosting the performance of over-sampling algorithms through under-sampling the minority class. Neurocomputing, 343:3–18.

[García et al. 2010] García, S., Fernández, A., Luengo, J., and Herrera, F. (2010). Advanced nonparametric tests for multiple comparisons in the design of experiments in computational intelligence and data mining: Experimental analysis of power. Information Sciences, 180(10):2044–2064.

[Haixiang et al. 2016] Haixiang, G., Yijing, L., Shang, J., Mingyun, G., Yuanyue, H., and Bing, G. (2016). Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications.

[He and Garcia 2009] He, H. and Garcia, E. A. (2009). Learning from imbalanced data. IEEE Trans. on Knowl. and Data Eng., 21(9):1263–1284.

[Lemaître et al. 2017] Lemaître, G., Nogueira, F., and Aridas, C. K. (2017). Imbalancedlearn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. Journal of Machine Learning Research, 18(17):1–5.

[Lichman 2013] Lichman, M. (2013). UCI machine learning repository.

[Pedregosa et al. 2011] Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al. (2011). Scikit-learn: Machine learning in python. Journal of machine learning research, 12(Oct):2825–2830.

[Ramentol et al. 2016] Ramentol, E., Gondres, I., Lajes, S., Bello, R., Caballero, Y., Cornelis, C., and Herrera, F. (2016). Fuzzy-rough imbalanced learning for the diagnosis of high voltage circuit breaker maintenance: The smote-frst-2t algorithm. Engineering Applications of Artificial Intelligence, 48:134–139.

[Rivera 2017] Rivera,W. A. (2017). Noise reduction a priori synthetic over-sampling for class imbalanced data sets. Information Sciences, 408:146–161.

[Sáez et al. 2015] Sáez, J. A., Luengo, J., Stefanowski, J., and Herrera, F. (2015). Smote–ipf: Addressing the noisy and borderline examples problem in imbalanced classification by a re-sampling method with filtering. Information Sciences, 291:184–203.

[Van Hulse et al. 2007] Van Hulse, J., Khoshgoftaar, T. M., and Napolitano, A. (2007). Experimental perspectives on learning from imbalanced data. In Proceedings of the 24th international conference on Machine learning, pages 935–942. ACM.

[Wang and Yao 2013] Wang, S. and Yao, X. (2013). Using class imbalance learning for software defect prediction. IEEE Transactions on Reliability, 62(2):434–443.

[Woods et al. 1993] Woods, K. S., DOSS, C. C., BOWYER, K. W., SOLKA, J. L., PRIEBE, C. E., and KEGELMEYER JR, W. P. (1993). Comparative evaluation of pattern recognition techniques for detection of microcalcifications in mammography. International Journal of Pattern Recognition and Artificial Intelligence, 7(06):1417–1436.
Publicado
15/10/2019
Como Citar

Selecione um Formato
BARBOSA, Gian; MIRANDA, Péricles; SILVA, Ricardo; MELLO, Rafael. Sequenciamento de algoritmos de amostragem para aumentar o desempenho de classificadores em conjuntos de dados desequilibrados. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 16. , 2019, Salvador. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 413-423. DOI: https://doi.org/10.5753/eniac.2019.9302.

Artigos mais lidos do(s) mesmo(s) autor(es)