Feature Selection: supporting the mining process on cyber-physical systems result datasets

  • Hebert Silva UNICAMP
  • Tania Basso UNICAMP
  • Regina Moraes UNICAMP

Resumo


Os sistemas físicos cibernéticos (CPs) geralmente geram grandes conjuntos de dados durante os processos de monitoramento ou teste. Analisar esses resultados manualmente não é viável, pois requer um grande esforço humano. O aprendizado de máquina pode ser uma abordagem valiosa para apoiar essa análise e pode ajudar o profissional responsável a tomar decisões urgentes. Além disso, na maioria das vezes, esses conjuntos de dados contêm valores ausentes, extremos, duplicados ou defeituosos que podem influenciar os métodos de classificação geral, podendo se contornar esse problema com técnicas de seleção de recursos. No entanto, identificar todas as combinações possíveis de recursos e selecionar o melhor conjunto deles não é uma tarefa fácil. Neste trabalho, apresentamos um estudo de seleção de recursos para automatizar a análise de resultados de testes de CPs com o suporte de aprendizado de máquina. A ideia é identificar automaticamente um conjunto de atributos que otimizam a precisão do modelo escolhido. Três cenários que usam grandes quantidades de dados de sistemas físicos cibernéticos foram usados e os resultados da seleção de recursos foram surpreendentes em alguns casos.

Referências

Angelis, V., Felici, G., and Mancinelli, G. (2006). Feature selection for data mining. In Data Mining and Knowledge Discovery Approaches based on Rule Induction Techniques, pages 227–251. Springer.

Bolón-Canedo, V. and A.Alonso-Betanzos (2019). Ensembles for feature selection: A review and future trends. Information Fusion, 52:1–12.

Hindy, H., Brosset, D., Bayne, E., Seeam, A., and Bellekens, X. (2018). Improving siem for critical scada water infrastructures using machine learning. In International Workshop on the Security of Industrial Control Systems and Cyber-Physical Systems - SECPRE, pages 3–19. Springer.

Husna, A. and Adiwijaya, A. (2018). A clustering approach for feature selection in microarray data classification using random forest. Information Process Systems, 14:1167–1175.

Kumar, S. (2021). Automate your feature selection workflow in one line of python code. URL: [link]. [Last access on June, 2021].

Mafarja, M. and Mirjalili, S. (2018). Whale optimization approaches for wrapper feature selection. Applied Soft Computing, 62.

Pipino, L. L., Lee, Y.W., andWang, R. (2019). Data quality assessment. Computer Reviews Journal, 4.

Rothermich J. (2021). Finding machine learning ready data. URL: [link]. [Last access on May, 2021].

Sraavnthi, K., Shamila, M., and Kumar, T. A. (2019). Cyber physical systems: The role of machine learning and cyber security in present and future. Computer Reviews Journal, 4.

Tang, J., Alelyani, S., and Liu, H. (2014). Feature Selection for Classification: A Review, pages 37–64. Number 5.

Vidyavathi, B. M. (2019). A new approach to feature selection for data mining. Computational Intelligence Research, 7(3).
Publicado
16/08/2021
SILVA, Hebert; BASSO, Tania; MORAES, Regina. Feature Selection: supporting the mining process on cyber-physical systems result datasets. In: WORKSHOP DE TESTES E TOLERÂNCIA A FALHAS (WTF), 22. , 2021, Uberlândia. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 15-28. ISSN 2595-2684. DOI: https://doi.org/10.5753/wtf.2021.17201.