Tecnologia Assistiva Multimodal para Descrição de Interfaces Gráficas a Pessoas Cegas

Claudio Honorio da Silva Junior; Guilherme Felipetto; Leonardo Garcia Tampelini

doi:10.5753/latinoware.2025.16467

Claudio Honorio da Silva Junior Faculdade Donaduzzi
Guilherme Felipetto Faculdade Donaduzzi
Leonardo Garcia Tampelini Faculdade Donaduzzi

DOI: https://doi.org/10.5753/latinoware.2025.16467

Resumo

O aumento da dependência de plataformas digitais em contextos educacionais tem gerado barreiras significativas para pessoas com deficiência visual, uma vez que a maioria das interfaces gráficas não é projetada com foco em acessibilidade. Para enfrentar esse desafio, este artigo apresenta um sistema assistivo multimodal voltado para promover a acessibilidade digital em ambientes educacionais. A solução integra técnicas de visão computacional, OCR e TTS para fornecer descrições em áudio estruturadas de elementos da interface gráfica. Utiliza-se YOLOv8 para detecção visual, PaddleOCR para extração textual, uma CNN leve para classificação de ícones e o modelo GPT-4 para interpretação contextual. O sistema foi avaliado por meio de um estudo de caso com um aluno cego do curso de Inteligência Artificial, buscando analisar o impacto das descrições funcionais na autonomia do usuário, na eficiência de navegação e no acesso a conteúdos multimodais. Os resultados apontam para o potencial da combinação entre modelos de aprendizado profundo e tecnologias de linguagem natural no avanço da educação inclusiva por meio de soluções assistivas práticas e escaláveis.

Palavras-chave: Acessibilidade Digital, Visão Computacional, OCR, Text-to-Speech, Inclusão Educacional

Referências

S. Gollagi, K. Bamane, D. Patil, S. Ankali, and B. Akiwate, “An innovative smart glass for blind people using artificial intelligence,” Indonesian Journal of Electrical Engineering and Computer Science, vol. 31, p. 433, 07 2023.

I. Jeong, K. Kim, J. Jung, and J. Cho, “Yolov8-based xr smart glasses mobility assistive system for aiding outdoor walking of visually impaired individuals in south korea,” Electronics, vol. 14, p. 425, 01 2025.

S. Jangle, D. Hutke, T. Hiwanj, and A. Kahar, “Ai powered glasses for visually impaired people using object detection,” INTERNATIONAL JOURNAL OF SCIENTIFIC RESEARCH IN ENGINEERING AND MANAGEMENT, vol. 09, pp. 1–9, 04 2025.

M. T. Islam, I. Kabir, E. A. Pearce, M. A. Reza, and S. M. Billah, “A dataset for crucial object recognition in blind and low-vision individuals’ navigation,” 2024.

J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” 2016.

S. S. Daneshvar and S. Wang, “Gui element detection using sota yolo deep learning models,” 08 2024.

K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 06 2016, pp. 770–778.

R. Smith, “An overview of the tesseract ocr engine,” in Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), vol. 2, 2007, pp. 629–633.

T. Pettersson, M. Riveiro, and T. Löfström, “Multimodal fine-grained grocery product recognition using image and ocr text,” Machine Vision and Applications, vol. 35, p. 79, 2024.

J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerrv-Ryan, R. A. Saurous, Y. Agiomvrgiannakis, and Y. Wu, “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE Press, 2018, p. 4779–4783.

Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “Fastspeech: fast, robust and controllable text to speech,” in Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2019.

Y. Gao, L. Fischer, A. Lintner, and S. Ebling, “Audio description generation in the era of llms and vlms: A review of transferable generative ai technologies,” 10 2024.