Unsupervised Specialization of Visual Subclasses Using K-Means in YOLO-Based Detection Pipelines

Pedro Henrique Campos Moreira; Bianca Panacho Ferreira; Marcus Vinicius Diniz dos Reis

doi:10.5753/wsis.2025.15733

Pedro Henrique Campos Moreira UFV
Bianca Panacho Ferreira UFV
Marcus Vinicius Diniz dos Reis UFV

DOI: https://doi.org/10.5753/wsis.2025.15733

Resumo

Este trabalho apresenta um pipeline para enriquecer datasets de detecção de objetos através da rotulagem automática de subclasses visuais. A partir de anotações genéricas, a metodologia utiliza um detector YOLO para extrair instâncias de objetos e, em seguida, aplica processamento de imagem para extrair vetores de cor. O algoritmo não supervisionado K-Means é usado para agrupar estes vetores, definindo novas subclasses de forma autônoma. O modelo YOLOv8n, re-treinado com o dataset refinado, alcançou 94.68% de precisão na tarefa de distinguir equipes esportivas, validando a abordagem como uma solução eficaz para contornar a necessidade de anotação manual.

Referências

Grishin, K., Chupin, S., Vasylenko, A., Barkhatova, T., and Burenin, R. (2023). Yolocl: Galaxy cluster detection in the sdss with deep machine learning. Astronomy & Astrophysics, 677:A101.

Koshkina, A., Nauata, N., Tighe, J., and Felsen, P. (2021). Unsupervised classification of players in team sports. arXiv preprint arXiv:2104.10068.

Kowsari, K. and Alassaf, M. H. (2016). Weighted unsupervised learning for 3d object detection. arXiv preprint arXiv:1602.05920.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (2002). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324.

MacQueen, J. (1967). Multivariate observations. In Proceedings ofthe 5th Berkeley Symposium on Mathematical Statisticsand Probability, volume 1, pages 281–297.

Qiu, T., Yang, L., Zhang, L., Tang, J., and Xu, X. (2024). Clda-yolo: Visual contrastive learning based domain adaptive yolo detector. arXiv preprint arXiv:2412.11812.

Redmon, J. and Farhadi, A. (2017). Yolo9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7263–7271.