Unsupervised Specialization of Visual Subclasses Using K-Means in YOLO-Based Detection Pipelines
Resumo
Este trabalho apresenta um pipeline para enriquecer datasets de detecção de objetos através da rotulagem automática de subclasses visuais. A partir de anotações genéricas, a metodologia utiliza um detector YOLO para extrair instâncias de objetos e, em seguida, aplica processamento de imagem para extrair vetores de cor. O algoritmo não supervisionado K-Means é usado para agrupar estes vetores, definindo novas subclasses de forma autônoma. O modelo YOLOv8n, re-treinado com o dataset refinado, alcançou 94.68% de precisão na tarefa de distinguir equipes esportivas, validando a abordagem como uma solução eficaz para contornar a necessidade de anotação manual.
Referências
Koshkina, A., Nauata, N., Tighe, J., and Felsen, P. (2021). Unsupervised classification of players in team sports. arXiv preprint arXiv:2104.10068.
Kowsari, K. and Alassaf, M. H. (2016). Weighted unsupervised learning for 3d object detection. arXiv preprint arXiv:1602.05920.
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (2002). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324.
MacQueen, J. (1967). Multivariate observations. In Proceedings ofthe 5th Berkeley Symposium on Mathematical Statisticsand Probability, volume 1, pages 281–297.
Qiu, T., Yang, L., Zhang, L., Tang, J., and Xu, X. (2024). Clda-yolo: Visual contrastive learning based domain adaptive yolo detector. arXiv preprint arXiv:2412.11812.
Redmon, J. and Farhadi, A. (2017). Yolo9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7263–7271.
