Uso de GPUs na validação de agrupamentos com amostragem SkeVa
Resumo
A validação de agrupamentos em grandes volumes de dados é limitada pelo custo quadrático do Índice de Dunn (DI), especialmente no cálculo da compacidade (diâmetro máximo intra-cluster). Este trabalho apresenta uma implementação paralela do DI que combina aceleração em GPU com a técnica de amostragem SkeVa (Sketch-and-Validate), que estima o diâmetro máximo usando apenas pequenas amostras. Em testes com datasets de até 1 milhão de pontos, o método alcançou speedups de 9x a 11x em relação à versão serial, preservando o valor do DI.
Referências
Dunn, J. C. (1974). Well-separated clusters and optimal fuzzy partitions. Journal of Cybernetics, 4(1):95–104.
Grün, Eduardo S., Martins, Wellington S., and Franco, Ricardo (2024). Acelerando o cálculo do índice dunn de validação de agrupamento. In Escola Regional de Alto Desempenho do Centro-Oeste (ERAD-CO), Goiânia, GO, Brasil. SBC.
Traganitis, Panagiotis A., Slavakis, Konstantinos, and Giannakis, Georgios B. (2015). Sketch and validate for big data clustering. IEEE Journal of Selected Topics in Signal Processing.
