Um Estudo de Variantes do Índice de Validação Silhueta
Resumo
Este artigo se propõe a avaliar cinco variantes do índice de silhueta quanto à sua capacidade de detectar soluções de boa qualidade para problemas de agrupamento. Foram realizados cinco experimentos computacionais, contemplando 51 instâncias da literatura diversificadas (dados reais e artificiais). Como medidas de dissimilaridade foram utilizadas as distâncias euclidiana e de manhattan e para os algoritmos de agrupamento, PAM, DBSCAN e Bisecting k-means. Os resultados obtidos indicam que a variante baseada na mediana constitui-se como boa alternativa para detectar soluções de qualidade.
Referências
Bussab, W. O., Miazaki, E. S., and Andrade, D. F. (1990). Introdução à Análise de Agrupamentos. IME - USP, São Paulo.
Han, J., Kamber, M., and Pei, J. (2012). Data Mining: Concepts and Techniques: Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems. Elsevier Science.
Hruschka, E. R., Campello, R. J. G. B., and Castro, L. N. (2004). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. In IEEE International Conference on Data Mining, pages 403–406.
Kaufman, L. and Rousseeuw, P. J. (1989). Finding Groups in Data - An Introduction to Clusters Analysis. Wiley-Interscience Publication.
Semaan, G. S. (2013). Algoritmos para o Problema de Agrupamento Automático. Tese de doutorado, Universidade Federal Fluminense, Niterói - RJ.