Análise da relação entre medidas de complexidade de dados e o desempenho de classificadores

Vitor Lisboa Nogueira; André Brun

doi:10.5753/latinoware.2025.15881

Vitor Lisboa Nogueira UNIOESTE
André Brun UNIOESTE

DOI: https://doi.org/10.5753/latinoware.2025.15881

Resumo

Este trabalho investiga a relação entre descritores de complexidade de conjuntos de dados e o desempenho de classificadores. O objetivo central foi analisar se classificadores treinados com dados de complexidade similar apresentam desempenhos semelhantes em termos de acurácia. Foram utilizadas medidas de complexidade agrupadas em três categorias: sobreposição, separabilidade das classes e características de geometria, topologia e densidade dos dados. O experimento, que foi conduzido sobre 26 bases de dados, indicou que algumas métricas apresentam relação significativa com o desempenho dos classificadores. Dentre elas, destacam-se L1, T1, F2 e L2, que mostraram comportamento mais alinhado à acurácia. Em contrapartida, F3, N1, F4 e N3 foram as métricas com menor similaridade. Esses achados contribuem para uma compreensão mais profunda sobre o impacto das caracter ísticas intrínsecas dos dados na tarefa de classificação indicando que um conhecimento prévio dos descritores de complexidade pode auxiliar na estimação da taxa de acertos dos modelos de classificação.

Palavras-chave: descritores de complexidade, desempenho de classificadores, influência dos dados

Referências

A. S. Britto Jr., R. Sabourin, and L. E. S. Oliveira, “Dynamic selection of classifiers — a comprehensive review,” Pattern Recognition, vol. 47, p. 3665–3680, 2014. [Online]. DOI: 10.1016/j.patcog.2014.05.003

A. L. Brun, A. S. Britto Jr., L. S. Oliveira, and F. Enembreck, “A framework for dynamic classifier selection oriented by the classification problem difficulty,” Pattern Recognition, vol. 76, pp. 175–190, 2018. [Online]. DOI: 10.1016/j.patcog.2017.10.038

T. K. Ho and M. Basu, “Complexity measures of supervised classification problems,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 3, pp. 289–300, Mar 2002. [Online]. DOI: 10.1109/34.990132

N. Macià, E. Bernadó-Mansilla, A. Orriols-Puig, and T. K. Ho, “Learner excellence biased by data set selection: A case for data characterisation and artificial data sets,” Pattern Recognition, vol. 46, no. 3, p. 1054–1066, 2013. [Online]. DOI: 10.1016/j.patcog.2012.09.022

A. L. Brun, A. S. Britto Jr., L. S. Oliveira, F. Enembreck, and R. Sabourin, “Contribution of data complexity features on dynamic classifier selection,” in 2016 International Joint Conference on Neural Networks (IJCNN), 2016, pp. 4396–4403. [Online]. DOI: 10.1109/IJCNN.2016.7727774

M. Monteiro, A. S. Britto Jr., J. P. Barddal, L. S. Oliveira, and R. Sabourin, “Classifier pool generation based on a twolevel diversity approach,” in 2020 25th International Conference on Pattern Recognition (ICPR), 2021, pp. 2414–2421. [Online]. Available: [link]

M. J. dos Santos, A. L. Brun, and R. A. Silva, “Um framework para análise da relação entre tamanho e complexidade de conjuntos de dados,” Revista Brasileira de Computação Aplicada, vol. 13, no. 2, p. 1–15, May 2021. [Online]. DOI: 10.5335/rbca.v13i2.10898

T. K. Ho and M. Basu, “Measuring the complexity of classification problems,” in Proceedings 15th International Conference on Pattern Recognition. ICPR-2000, ser. ICPR-00, vol. 2. IEEE Comput. Soc, p. 43–47. [Online]. DOI: 10.1109/ICPR.2000.906015

J. S. Sánchez, R. A. Mollineda, and J. M. Sotoca, “An analysis of how training data complexity affects the nearest neighbor classifiers,” Springer-Verlag London Limited, vol. 10, no. 3, pp. 189–201, Sep 2007. [Online]. DOI: 10.1007/s10044-007-0061-2

A. I. Landeros, “Data complexity and classifier selection,” Tese de Doutorado, University of Alabama, Tuscaloosa, 2008.

A. Orriols-Puig, N. Macià, and T. K. Ho, Documentation for the Data Complexity Library in C++, Grup de Recerca en Sistemes Intel - ligents La Salle - Universitat Ramon Llull, Barcelona, Dec 2010.

A. C. Lorena, L. P. F. Garcia, J. Lehmann, M. C. P. Souto, and T. K. Ho, “How complex is your classification problem? a survey on measuring classification complexity,” ACM Computing Surveys (CSUR), vol. 52, pp. 1–34, 2019. [Online]. DOI: 10.1145/3347711

D. Dua and C. Graff. (2017) UCI machine learning repository. University of California, Irvine, School of Information and Computer Sciences. [Online]. Available: [link]

J. Alcalá-Fdez, A. Fernández, J. Luengo, J. Derrac, S. García, L. Sánchez, and F. Herrera, “Keel data-mining software tool: Data set repository, integration of algorithms and experimental analysis framework,” Journal of Multiple-Valued Logic and Soft Computing, vol. 17, no. 2-3, pp. 255–287, 2011.

L. I. Kuncheva, Combining Pattern Classifiers, 1st ed. New Jersey: John Wiley & Sons, Inc., 2004.

R. D. King, C. Feng, and A. Sutherland, “StatLog: comparison of classification algorithms on large real-world problems,” Applied Artificial Intelligence, vol. 9, no. 3, pp. 289–333, 1995. [Online]. DOI: 10.1080/08839519508945477