Combinando semi-supervisão e hubness para aprimorar o agrupamento de dados em alta dimensão

Mateus C. de Lima; Maria Camila N. Barioni; Humberto L. Razente

doi:10.5753/sbbd.2016.24318

Mateus C. de Lima Universidade Federal de Uberlândia
Maria Camila N. Barioni Universidade Federal de Uberlândia
Humberto L. Razente Universidade Federal de Uberlândia

DOI: https://doi.org/10.5753/sbbd.2016.24318

Resumo

A chamada maldição da dimensionalidade faz com que a análise de dados em alta dimensão seja uma tarefa desafiadora para técnicas de agrupamento de dados. Este artigo apresenta uma abordagem de agrupamento que explora a combinação de estratégias de semi-supervisão e de estimativa de densidade baseada em pontuações hubness com foco em dados de alta dimensão. Os resultados experimentais iniciais mostram o seu bom desempenho quando aplicada em conjuntos de dados reais com diferentes características.

Palavras-chave: Semi-supervisão, Hubness, Agrupamento de dados, Alta dimensão

Referências

Basu, S., Davidson, I., and Wagstaff, K. (2008). Constrained Clustering: Advances in Algorithms, Theory, and Applications. Chapman & Hall/CRC, 1 edition.

Demsar, J. (2006). Statistical comparisons of classifiers over multiple data sets. J. Mach. Learn. Res., 7:1–30.

Dhillon, I. S., Guan, Y., and Kulis, B. (2004). Kernel k-means: Spectral clustering and normalized cuts. KDD ’04, pages 551–556. ACM.

Faceli, K., Lorena, A. C., Gama, J. a., and Carvalho, A. (2011). Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina. LTC, 1 edition.

Samet, H. (2005). Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann.

Sander, J., Ester, M., Kriegel, H.-P., and Xu, X. (1998). Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications. Data Min. Knowl. Discov., 2(2):169–194.

Silvestre, A. L. (2007). Análise de Dados e Estatística Descritiva. Escolar Editora.

Tomasev, N. and Mladenic, D. (2013). Hub co-occurrence modeling for robust high-dimensional knn classification. In ECML PKDD, pages 643–659. Springer.

Tomasev, N., Radovanovic, M., Mladenic, D., and Ivanovic, M. (2011). The role of hubness in clustering high-dimensional data. PAKDD, pages 183–195. Springer.

Tomasev, N., Radovanovic, M., Mladenic, D., and Ivanovic, M. (2014). The role of hubness in clustering high-dimensional data. IEEE TKDE, 26(3):739–751.

Zar, J. H. (2007). Biostatistical Analysis. Prentice-Hall, Inc., 5 edition.