Explorando o uso de VLMs para classificação Zero-Shot de Imagens

Carlos M. S. Figueiredo; Tiago E. de Melo

doi:10.5753/sbcup.2025.7136

Carlos M. S. Figueiredo UEA
Tiago E. de Melo UEA

DOI: https://doi.org/10.5753/sbcup.2025.7136

Resumo

Modelos Visão-Linguagem (VLMs) têm revolucionado a classificação de imagens, permitindo o reconhecimento de objetos sem necessidade de treinamento específico. Este artigo investiga o impacto desses modelos com diferentes estratégias, como prompts diretos que exploram a conhecimento embutido desses modelos, e prompts descritivos que usam habilidade de raciocínio dos modelos para reconhecimento de objetos desconhecidos. Avaliamos também uma estratégia alternativa, onde um VLM leve é utilizado para descrever textualmente objetos e uma LLM com maior capacidade de raciocínio classifica o objeto pela descrição. Resultamos mostram a importância do conhecimento implícito de modelos, mas que modelos pequenos e limitados podem realizar tarefas mais complexas com prompts mais descritivos. Este estudo contribui para o entendimento do potencial da classificação de imagens zero-shot com VLMs, oferecendo insights valiosos para avanços no tema.

Referências

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.

Gemini-Team (2024). Gemini: A family of highly capable multimodal models. arXiv:2312.11805.

Grattafiori, A. (2024). The llama 3 herd of models. arXiv2407.21783.

Jr., A., Filho, A., Sabino-Silva, R., and Carneiro, M. (2023). Convolutional neural networks for the molecular detection of covid-19. In Anais da XII Brazilian Conference on Intelligent Systems, pages 51–62, Porto Alegre, RS, Brasil. SBC.

Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., and Iwasawa, Y. (2022). Large language models are zero-shot reasoners. Advances in neural information processing systems, 35:22199–22213.

LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. Nature, 521:436—-444.

Liu, S., Yu, S., Lin, Z., Pathak, D., and Ramanan, D. (2024). Language models as black-box optimizers for vision-language models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12687–12697.

Marafioti, A., Noyan, M., Farré, M., Bakouch, E., and Cuenca, P. Smolvlm - small yet mighty vision language model. [link]. Acessado em Janeiro de 2025.

Mendonça, A. and Guedes, E. (2024). Classificação e detecção inteligentes de grãos para agricultura digital na cultura do milho. In Anais do XV Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos Naturais, pages 1–10, Porto Alegre, RS, Brasil. SBC.

Menon, S. and Vondrick, C. (2022). Visual classification via description from large language models. arXiv preprint arXiv:2210.07183.

Meta-AI. Llama 3.2: Revolutionizing edge ai and vision with open, customizable models. [link]. Acessado em Janeiro de 2025.

Mirza, M. J., Karlinsky, L., Lin, W., Doveh, S., Micorek, J., Kozinski, M., Kuehne, H., and Possegger, H. (2024). Meta-prompting for automating zero-shot visual recognition with llms. In European Conference on Computer Vision, pages 370–387. Springer.

Monteiro, G., Camelo, L., Aquino, G., Fernandes, R. d. A., Gomes, R., Printes, A., Torné, I., Silva, H., Oliveira, J., and Figueiredo, C. (2023). A comprehensive framework for industrial sticker information recognition using advanced ocr and object detection techniques. Applied Sciences, 13(12).

Pratt, S., Covert, I., Liu, R., and Farhadi, A. (2023). What does a platypus look like? generating customized prompts for zero-shot image classification. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 15691–15701.

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning transferable visual models from natural language supervision. In International conference on machine learning, pages 8748–8763. PMLR.

Saha, O., Van Horn, G., and Maji, S. (2024). Improved zero-shot classification by adapting vlms with text descriptions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 17542–17552.

Szegedy, C., Ioffe, S., Vanhoucke, V., and Alemi, A. (2016). Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv:1602.07261.

Sá, T. and Figueiredo, C. (2022). Self-driving vessels: Yolov5 approach for water surface object detection. In Anais do XIV Simpósio Brasileiro de Computação Ubíqua e Pervasiva, pages 31–40, Porto Alegre, RS, Brasil. SBC.

Zhang, J., Huang, J., Jin, S., and Lu, S. (2024). Vision-language models for vision tasks: A survey.