Construção de Conjunto de Classificadores Baseado na Diversidade do Espaço de Características e Algoritmos de Aprendizagem para Detecção de Spam
Resumo
As pesquisas na área de aprendizagem de máquina estão focando seus esforços na diversidade para construção de conjunto de classificadores. O conceito de diversidade está relacionado aos recursos usados para formar um conjunto de classificadores. Este trabalho apresenta experimentos considerando manipulação de características/instâncias e algoritmos de aprendizagem. Demonstra-se que a diversidade considerando algoritmos de aprendizagem tem um desempenho superior aos recursos de manipulação de características. Apresentando considerável redução de falsos positivos na classificação binária de spam, além das demais métricas abordadas como precisão, acurácia, medida-f1 e recall.
Referências
Díez-Pastor, J. F., Rodríguez, J. J., García-Osorio, C. I., and Kuncheva, L. I. (2015). Diversity techniques improve the performance of the best imbalance learning ensembles. volume 325, pages 98–117. Elsevier.
Easwaramoorthy, S., Thamburasa, S., Aravind, K., Bhushan, S. B., and Rajadurai, H. (2016). Heterogeneous classifier model for e-mail spam classification using fso feature selection method. In Inventive Computation Technologies (ICICT), International Conference on, volume 1, pages 1–6. IEEE.
Ibrahim, A. J., Siraj, M. M., and Din, M. M. (2017). Ensemble classifiers for spam review detection. In Application, Information and Network Security (AINS), 2017 IEEE Conference on, pages 130–134. IEEE.
Symantec (2018). Monthly threat report, Acessado em 20 de Junho de 2018. [link].
Yin, X.-C., Huang, K., Hao, H.-W., Iqbal, K., and Wang, Z.-B. (2014). A novel classifier ensemble method with sparsity and diversity. In Neurocomputing, volume 134, pages 214–221. Elsevier.