Combinando Técnicas de Mineração de Dados para Melhorar o Processo de Detecção Automática de Arritmia Cardíaca

  • Christian Gomes UFSJ
  • Leonardo Rocha UFSJ

Resumo


Algoritmos de Classificação Automática são ferramentas promissoras no auxílio de diagnósticos de Arritmia Cardíaca (AC), entretanto sofrem com dois problemas: (1) muitos atributos numéricos gerados na decomposição de um Eletrocardiograma (ECG); e (2) o número de pacientes com ACs é muito menor do que aqueles tidos como normais (bases desbalanceadas). Nesse trabalho, combinamos técnicas de mineração de dados (i.e. clustering, feature selection e oversampling) para criar modelos de classificação mais eficazes. Em nossas avaliações, utilizando uma coleção da UCI, melhoramos significativamente a eficácia do algoritmo Random Forest, alcançando uma acurácia de 88%, valor superior ao melhor já reportado na literatura.

Palavras-chave: Mineração de Dados, Classificação Automática, Seleção de Atributos, Arritmia Cardíaca

Referências

Agrawal, R., Gehrke, J., Gunopulos, D., and Raghavan, P. (1998). Automatic subspace clustering of high dimensional data for data mining applications. In Proc. of SIGMOD ’98, pages 94–105, New York, USA. ACM.

Alelyani, S., Tang, J., and Liu, H. (2013). Feature selection for clustering: A review. Data Clustering: Algorithms and Applications, 29:110–121.

Barua, S., Islam, M. M., Yao, X., and Murase, K. (2014). Mwmote–majority weighted minority oversampling technique for imbalanced data set learning. IEEE Transactions on Knowledge and Data Engineering, 26(2):405–425.

Berkhin, P. (2006). A survey of clustering data mining techniques. Grouping Multidimensional Data, pages 25–71.

Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. (2002). Smote: Synthetic minority over-sampling technique. J. Artif. Int. Res., 16(1):321–357.

Dheeru, D. and Karra Taniskidou, E. (2017). UCI machine learning repository.

Douzas, G. and Bacao, F. (2017). Self-organizing map oversampling (somo) for imbalanced data set learning. Expert Systems with Applications, 82:40–52.

Faber, V. (1994). Clustering and the continuous k-means algorithm. Los Alamos Science, 22.

Farivar, R., Rebolledo, D., Chan, E., and Campbell, R. H. (2008). A parallel implementation of K-means clustering on GPUs. In Proc. of PDPTA’08, pages 340–345, USA.

Guvenir, H. A., Acar, B., Demiroz, G., and Cekin, A. (1997). A supervised machine learning algorithm for arrhythmia analysis. In Computers in Cardiology 1997, pages 433–436. IEEE.

Hall, M. A. (1998). Correlation-based Feature Subset Selection for Machine Learning. PhD thesis, University of Waikato, Hamilton, New Zealand.

Jadhav, S. M., Nalbalwar, S., and Ghatol, A. (2010). Artificial neural network based cardiac arrhythmia classification using ecg signal data. In Proc. of IEEE ICEIE, volume 1, pages V1–228.

Joachims, T. (1999). Advances in kernel methods. chapter Making Large-scale Support Vector Machine Learning Practical, pages 169–184.

Portela, F., Santos, M. F., Silva, Á., Rua, F., Abelha, A., and Machado, J. (2014). Preventing patient cardiac arrhythmias by using data mining techniques. In IEEE IECBES, pages 165–170.

Salles, T., Gonçalves, M., Rodrigues, V., and Rocha, L. (2015). Broof: Exploiting out-of-bag errors, boosting and random forests for effective automated classification. In Proc. of 38th ACM SIGIR, pages 353–362.

Samad, S., Khan, S. A., Haq, A., and Riaz, A. (2014). Classification of arrhythmia. International Journal of Electrical Energy, 2(1):57–61.

Viegas, F., Rocha, L., Gonçalves, M., Mourão, F., Sá, G., Salles, T., Andrade, G., and Sandin, I. (2017). A genetic programming approach for feature selection in highly dimensional skewed data. Neurocomputing.

Wu, J., Xiong, H., Wu, P., and Chen, J. (2007). Local decomposition for rare class analysis. In Proc. of 13th ACM SIGKDD, pages 814–823.

Zheng, Z., Wu, X., and Srihari, R. (2004). Feature selection for text categorization on imbalanced data. sigkddexpl, 6:80–89.
Publicado
22/07/2019
GOMES, Christian; ROCHA, Leonardo. Combinando Técnicas de Mineração de Dados para Melhorar o Processo de Detecção Automática de Arritmia Cardíaca. In: CONCURSO DE TRABALHOS DE INICIAÇÃO CIENTÍFICA DA SBC (CTIC-SBC), 37. , 2018, Natal. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 31-40.