A High Performance Model for Recognition of Static Letters in Libras
Resumo
Língua Brasileira de Sinais (Libras) é a principal língua visual do Brasil, reconhecida como língua oficial por lei desde 2002. Ela utiliza gestos com as mãos e expressões faciais/corporais para permitir a comunicação com pessoas surdas, tornando-se, portanto, um instrumento de inclusão social. No entanto, há uma escassez de ferramentas para o ensino dessa língua, o que resulta em uma baixa porcentagem da população que realmente sabe se comunicar usando Libras. Este artigo introduz uma dessas ferramentas, apresentando um modelo que reconhece as letras estáticas do alfabeto português em Libras. O modelo foi implementado utilizando algoritmos tradicionais de Aprendizado de Máquina, em conjunto com a biblioteca MediaPipe. Desenvolvemos um modelo extremamente leve que atinge acurácia superior a 96% e reconhece gestos em menos de 0,2 ms, tornando-se uma aplicação de alto desempenho e baixa latência. Essas características tornam o modelo proposto adequado para integração em softwares user-friendly, incluindo aquelas voltadas para dispositivos móveis.
Referências
Bishop, C. M. and Bishop, H. (2019). Deep Learning: Foundations and Concepts. Springer Nature.
Brasil (2002). Lei nº 10.436, de 24 de abril de 2002. Dispõe sobre a Língua Brasileira de Sinais - Libras. Diário Oficial da União, Brasília, 25 abr. 2002. Acessado em: 17/03/2025.
Caiafa, E. G., Fonseca, F. F., Lima, A. A., Araujo, G. M., and da Silva, E. A. (2020). Aprendizado profundo no reconhecimento de sinais estáticos de libras. In Proc. 38th Simpósio Brasileiro de Telecomunicações e Processamento de Sinais, pages 1–5.
de Morais, L. M., Almeida, W. M., and Rego, R. C. (2025). Machine learning approaches for efficient recognition of brazilian sign language. In Simpósio Brasileiro de Sistemas de Informação (SBSI), pages 49–56. SBC.
Furtado, S. L. and De Oliveira, J. (2021). Computer vision and neural networks for libras recognition. In Workshop de Visão Computacional (WVC), pages 137–142. SBC.
Géron, A. (2022). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow. ” O’Reilly Media, Inc.”.
Grinsztajn, L., Oyallon, E., and Varoquaux, G. (2022). Why do tree-based models still outperform deep learning on typical tabular data? Advances in neural information processing systems, 35:507–520.
Li, Y., Chen, X., Li, H., Pu, X., Jin, P., and Ren, Y. (2025). Vsnet: Focusing on the linguistic characteristics of sign language. In Proceedings of the Computer Vision and Pattern Recognition Conference, pages 24320–24330.
Quaresma, P. and Pinho, A. (2007). Análise de frequências da língua portuguesa. In Livro de Actas da Conferência Ibero-Americana InterTIC, pages 267–272.
Redmon, J., Divvala, S., Girshick, R., and Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788.
Santos, M. F. O. d. M. et al. (2022). Classificação de libras em imagens através de redes neurais convolucionais.
Simonyan, K. and Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, San Diego.
Trabelsi, L., Harrouch, H., Mohamed, S., Jebali, M., and Sharma, A. (2025). Advancements and challenges in vision-based sign language recognition: A comprehensive review. Information Fusion, page 103626.
Vakunov, A., Chang, C.-L., Zhang, F., Sung, G., Grundmann, M., and Bazarevsky, V. (2020). Mediapipe hands: On-device real-time hand tracking. In Workshop on Computer Vision for AR/VR, volume 2, page 5.
