Análise Comparativa de Modelos Visuais para Ambientes Internos com Variação Temporal e de Iluminação
Resumo
Modelos de classificação visual são fundamentais em aplicações como navegação autônoma e robótica móvel, mas ainda enfrentam desafios em ambientes internos com variações de iluminação e mudanças temporais. Este trabalho compara o desempenho do extrator de características DINOv2, modelo auto-supervisionado de última geração, com arquiteturas supervisionadas como ConvNeXt, EfficientNet, ResNet e ViT. Utilizando o dataset KTH-IDOL2, avaliamos os modelos em diferentes condições ambientais. Os resultados mostram que o DINOv2 superou consistentemente os demais, alcançando até 98,02% de acurácia. Os achados destacam a robustez das representações auto-supervisionadas frente à variabilidade visual, posicionando o DINOv2 como uma alternativa promissora para classificação de ambientes em cenários realistas.
Referências
Barros, T., Pereira, R., Garrote, L., Premebida, C., and Nunes, U. J. (2021). Place recognition survey: An update on deep learning approaches. CoRR, abs/2106.10458.
Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., and Joulin, A. (2021). Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., and Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR).
Garg, S., Fischer, T., and Milford, M. (2021). Where is your place, visual place recognition? CoRR, abs/2103.06443.
He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778.
Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., and Xie, S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Luo, J., Pronobis, A., Caputo, B., and Jensfelt, P. (2006). The KTH-IDOL2 Database. Technical Report CVAP304, KTH Royal Institute of Technology, CVAP/CAS, Stockholm, Sweden.
Masone, C. and Caputo, B. (2021). A survey on deep visual place recognition. IEEE Access, 9:19516–19547.
Oquab, M., Darcet, T., Moutakanni, T., Ramé, A., Taylor, L., Misra, I., and Caron, M. (2024). Dinov2: Learning robust visual features without supervision. Transactions on Machine Learning Research, published online.
Pronobis, A., Jie, L., and Caputo, B. (2010). The more you learn, the less you store: Memory-controlled incremental svm for visual place recognition. Image and Vision Computing, 28(7):1080–1097.
Tan, M. and Le, Q. V. (2019). Efficientnet: Rethinking model scaling for convolutional neural networks. In Proceedings of the 36th International Conference on Machine Learning, pages 6105–6114. PMLR.
Wang, R., Shen, Y., Zuo, W., Zhou, S., and Zheng, N. (2022). Transvpr: Transformer-based place recognition with multi-level attention aggregation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13648–13657.
Zaffar, M., Ehsan, S., Milford, M., Flynn, D., and McDonald-Maier, K. D. (2020). Vpr-bench: An open-source visual place recognition evaluation framework with quantifiable viewpoint and appearance change. CoRR, abs/2005.08135.
Zhang, X., Wang, L., and Su, Y. (2021). Visual place recognition: A survey from deep learning perspective. Pattern Recognition, 113:107760.
Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., and Oliva, A. (2014). Learning deep features for scene recognition using places database. Advances in neural information processing systems, 27.