Desenvolvimento e Avaliação de um Sistema de Escrita e Desenho no Ar com Caneta Eletrônica e VLMs
Resumo
A necessidade de explorar novas formas de interação homem–máquina e de ampliar os recursos para escrita e desenho em ambientes digitais motivou o desenvolvimento deste projeto. Para isso, foi concebida uma caneta equipada com um LED de tom azulado em sua extremidade, responsável por gerar um ponto luminoso. A estrutura foi produzida por meio de impressão 3D e incorporou um microcontrolador ESP32 com tecnologia Bluetooth, possibilitando a integração com o computador. O sistema foi projetado para capturar, por meio de uma câmera, os movimentos realizados no ar com a caneta e, com o auxílio de modelos de Visão–Linguagem, reconhecer tanto palavras escritas quanto imagens desenhadas. No caso das imagens, o sistema também gera uma versão aprimorada do desenho, utilizando a descrição da imagem como referência; entretanto, essa funcionalidade não será explorada no presente estudo. Por fim, foi realizada uma comparação entre diferentes modelos, utilizando 12 palavras — sendo 6 em português e 6 em inglês — e 5 desenhos de distintas classes. Os modelos com melhor desempenho apresentaram 84% de acurácia com o Gemini 2.5 Flash na detecção de imagens e 88,3% de acurácia com o modelo da Perplexity.ai, baseado no GPT-4.1, na detecção de palavras.Referências
Alam, M. S., Kwon, K.-C., and Kim, N. (2019). Trajectory-based air-writing character recognition using convolutional neural network. In 2019 4th International Conference on Control, Robotics and Cybernetics (CRC), pages 86–90.
Barbosa, C. E., Pereira, T. B., do Carmo, I. M., Tello, R. J., Boldt, F. A., and Paixao, T. M. (2024). Reconhecimento de texto para sistemas air writing: Um estudo experimental. In Escola Regional de Informática do Espírito Santo (ERI-ES), pages 21–30. SBC.
Chen, M., AlRegib, G., and Juang, B.-H. (2016). Air-writing recognition—part i: Modeling and recognition of characters, words, and connecting motions. IEEE Transactions on Human-Machine Systems, 46(3):403–413.
Chen, Y.-H., Su, P.-C., and Chien, F.-T. (2019). Air-writing for smart glasses by effective fingertip detection. In 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE), pages 381–382.
Elshenaway, A. R. and Guirguis, S. K. (2021). On-air hand-drawn doodles for iot devices authentication during covid-19. IEEE Access, 9:161723–161744.
Li, J., Li, D., Xiong, C., and Hoi, S. (2022). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation.
Li, M., Lv, T., Cui, L., Lu, Y., Florencio, D., Zhang, C., Li, Z., and Wei, F. (2021). Trocr: Transformer-based optical character recognition with pre-trained models. [link].
Peng, Z., Wang, W., Dong, L., Hao, Y., Huang, S., Ma, S., and Wei, F. (2023). Kosmos-2: Grounding multimodal large language models to the world. ArXiv, abs/2306.
Vaidya, V., Pravanth, T., and Viji, D. (2022). Air writing recognition application for dyslexic people. In 2022 International Mobile and Embedded Technology Conference (MECON), pages 553–558.
Vloison, V. and Xiwei, H. (2021). Deep learning framework for line-level handwritten text recognition. [link].
Wang, K., Zeng, W., Ma, C., Cheng, C., Sun, P., Wang, L., and Cai, W. (2017). The design of wireless air mouse based on lpc54100. In 2017 36th Chinese Control Conference (CCC), pages 6409–6413.
Barbosa, C. E., Pereira, T. B., do Carmo, I. M., Tello, R. J., Boldt, F. A., and Paixao, T. M. (2024). Reconhecimento de texto para sistemas air writing: Um estudo experimental. In Escola Regional de Informática do Espírito Santo (ERI-ES), pages 21–30. SBC.
Chen, M., AlRegib, G., and Juang, B.-H. (2016). Air-writing recognition—part i: Modeling and recognition of characters, words, and connecting motions. IEEE Transactions on Human-Machine Systems, 46(3):403–413.
Chen, Y.-H., Su, P.-C., and Chien, F.-T. (2019). Air-writing for smart glasses by effective fingertip detection. In 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE), pages 381–382.
Elshenaway, A. R. and Guirguis, S. K. (2021). On-air hand-drawn doodles for iot devices authentication during covid-19. IEEE Access, 9:161723–161744.
Li, J., Li, D., Xiong, C., and Hoi, S. (2022). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation.
Li, M., Lv, T., Cui, L., Lu, Y., Florencio, D., Zhang, C., Li, Z., and Wei, F. (2021). Trocr: Transformer-based optical character recognition with pre-trained models. [link].
Peng, Z., Wang, W., Dong, L., Hao, Y., Huang, S., Ma, S., and Wei, F. (2023). Kosmos-2: Grounding multimodal large language models to the world. ArXiv, abs/2306.
Vaidya, V., Pravanth, T., and Viji, D. (2022). Air writing recognition application for dyslexic people. In 2022 International Mobile and Embedded Technology Conference (MECON), pages 553–558.
Vloison, V. and Xiwei, H. (2021). Deep learning framework for line-level handwritten text recognition. [link].
Wang, K., Zeng, W., Ma, C., Cheng, C., Sun, P., Wang, L., and Cai, W. (2017). The design of wireless air mouse based on lpc54100. In 2017 36th Chinese Control Conference (CCC), pages 6409–6413.
Publicado
16/10/2025
Como Citar
SOUZA, Luma T. L. de; CALDEIRA, Rafael A. D.; LEAL, Sérgio D. C.; SOUZA, Maria Clara P. de; PAIXÃO, Thiago M.; TELLO, Richard J. M. G..
Desenvolvimento e Avaliação de um Sistema de Escrita e Desenho no Ar com Caneta Eletrônica e VLMs. In: ESCOLA REGIONAL DE INFORMÁTICA DO ESPÍRITO SANTO (ERI-ES), 10. , 2025, Espírito Santo/ES.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 100-109.
DOI: https://doi.org/10.5753/eries.2025.16034.