Um Estudo de Variantes do Índice de Validação Silhueta

Victória Vargas; Eduardo Amorim; José André de M. Brito; Gustavo S. Semaan

doi:10.5753/eri-rj.2021.18784

Victória Vargas ENCE / IBGE
Eduardo Amorim Universidade Anhanguera
José André de M. Brito ENCE / IBGE
Gustavo S. Semaan INFES / UFF

DOI: https://doi.org/10.5753/eri-rj.2021.18784

Resumo

Este artigo se propõe a avaliar cinco variantes do índice de silhueta quanto à sua capacidade de detectar soluções de boa qualidade para problemas de agrupamento. Foram realizados cinco experimentos computacionais, contemplando 51 instâncias da literatura diversificadas (dados reais e artificiais). Como medidas de dissimilaridade foram utilizadas as distâncias euclidiana e de manhattan e para os algoritmos de agrupamento, PAM, DBSCAN e Bisecting k-means. Os resultados obtidos indicam que a variante baseada na mediana constitui-se como boa alternativa para detectar soluções de qualidade.

Palavras-chave: Análise de Dados, Problemas de Agrupamento, índice de Silhueta

Referências

Amorim, E. R. (2013). Novos Índices Relativos para a Identificação da Quantidade Ideal de Grupos. Trabalho de conclusão de curso, Universidade Anhanguera, Niterói - RJ.

Bussab, W. O., Miazaki, E. S., and Andrade, D. F. (1990). Introdução à Análise de Agrupamentos. IME - USP, São Paulo.

Han, J., Kamber, M., and Pei, J. (2012). Data Mining: Concepts and Techniques: Concepts and Techniques. The Morgan Kaufmann Series in Data Management Systems. Elsevier Science.

Hruschka, E. R., Campello, R. J. G. B., and Castro, L. N. (2004). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. In IEEE International Conference on Data Mining, pages 403–406.

Kaufman, L. and Rousseeuw, P. J. (1989). Finding Groups in Data - An Introduction to Clusters Analysis. Wiley-Interscience Publication.

Semaan, G. S. (2013). Algoritmos para o Problema de Agrupamento Automático. Tese de doutorado, Universidade Federal Fluminense, Niterói - RJ.