CbDGen: Uma ferramenta de geração de dados sintéticos baseada na complexidade
Resumo
Ferramentas de geração de bases de dados sintéticos ganharam atenção como uma alternativa para a avaliação eficaz de classificadores. Como são altamente configuráveis, as ferramentas possibilitam a criação de bases com características específicas, permitindo a avaliação do classificador em diferentes cenários. Este trabalho propõe a CbDGen, uma ferramenta para geração de bases sintéticas baseada em complexidade de dados. Com uma interface simples e parametrizável, a CbDGen possibilita a inserção de informações básicas (i.e., número de classes, atributos), a seleção de diferentes distribuições e nível de ruído. O seu grande diferencial é permitir que a escolha do tipo de complexidade desejado (i.e., balanceamento, separabilidade), bem como o nível desta complexidade. Os resultados mostraram que a CbDGen é capaz de produzir bases sintéticas aderentes às escolhas realizadas pelo usuário, se mostrando uma plataforma propícia para a avaliação de classificadores.
Referências
Amancio, D. R., Comin, C. H., Casanova, D., Travieso, G., Bruno, O. M., Rodrigues, F. A., and da Fontoura Costa, L. (2014). A systematic comparison of supervised classifiers. PloS one, 9(4).
Dahmen, J. and Cook, D. (2019). Synsys: A synthetic data generation system for healthcare applications. Sensors, 19(5):1181.
Deb, K. and Jain, H. (2014). An evolutionary many-objective optimization algorithm using reference-point-based nondominated sorting approach, part i: Solving problems with box constraints. IEEE Trans. Evolutionary Computation, 18(4):577–601.
Deb, K., Pratap, A., Agarwal, S., and Meyarivan, T. (2002). A fast and elitist multiobjective genetic algorithm: Nsga-ii. IEEE transactions on evolutionary computation, 6(2):182–197.
França, T. R., Miranda, P. B., Lorena, A. C., and Nascimento, A. C. ((Accted) 2020). A many-objective optimization approach for complexity-based data set generation. In To Appear in IEEE Congress on Evolutionary Computation, 2020.
Garcia, L. P., de Carvalho, A. C., and Lorena, A. C. (2016). Noise detection in the meta-learning level. Neurocomputing, 176:14–25.
Ho, T. K. and Basu, M. (2002). Complexity measures of supervised classification problems. IEEE transac. on pattern analysis and machine intelligence, 24(3):289–300.
Liu, R., Fang, B., Tang, Y. Y., and Chan, P. P. (2016). Synthetic data generator for classification rules learning. In 2016 7th International Conference on Cloud Computing and Big Data (CCBD), pages 357–361. IEEE.
Lorena, A. C., Garcia, L. P., Lehmann, J., Souto, M. C., and Ho, T. K. (2019). How complex is your classification problem? a survey on measuring classification complexity. ACM Computing Surveys (CSUR), 52(5):1–34.
Luengo, J. and Herrera, F. (2015). An automatic extraction method of the domains of competence for learning classifiers using data complexity measures. Knowledge and Information Systems, 42(1):147–180.
Macia, N. and Bernado-Mansilla, E. (2014). Towards uci+: A mindful repository design. Information Sciences, 261:237–262.
Mendonça, S. D. P., Brito, Y. P. D. S., Dos Santos, C. G. R., Lima, R. D. A. D., De Araújo, T. D. O., and Meiguins, B. S. (2020). Synthetic datasets generator for testing information visualization and machine learning techniques and tools. IEEE Access, 8:82917–82928.
Popić, S., Pavković, B., Velikić, I., and Teslić, N. (2019). Data generators: a short survey of techniques and use cases with focus on testing. In 2019 IEEE 9th International Conference on Consumer Electronics (ICCE-Berlin), pages 189–194. IEEE.
Wang, B., Ruchikachorn, P., and Mueller, K. (2013). Sketchpadn-d: Wydiwyg sculpting and editing in high-dimensional space. IEEE Transactions on Visualization and Computer Graphics, 19(12):2060–2069.