Análise Comparativa de Eficiência Computacional e Word Error Rate (WER) em Ferramentas de Inteligência de Vídeo
Resumo
O crescimento exponencial do YouTube (29 bilhões de vídeos em 2025) exige escalabilidade na análise de mídia digital. Este artigo apresenta uma análise comparativa sistemática de quatro ferramentas: Google Cloud, AWS, TwelveLabs e VOSK. A metodologia avalia o desempenho computacional (throughput, latência, memória) e a qualidade analítica (WER) utilizando um dataset de referência do Kaggle. Os resultados confirmam um trade-off entre eficiência e precisão: a TwelveLabs obteve a melhor performance global (7,15% WER), enquanto o VOSK registrou a menor latência (24,44 s). O estudo fornece diretrizes técnicas para a seleção de ferramentas alinhada aos requisitos de acurácia e disponibilidade de infraestrutura.
Referências
Ali, A. and Renals, S. (2018). Word error rate estimation for speech recognition: e-WER.
In Gurevych, I. and Miyao, Y., editors, Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 20–24, Melbourne, Australia. Association for Computational Linguistics.
Charleaux, L. and Toledo, V. (2025). O que é memória ram? veja para que serve, como funciona e quais são os tipos. [link]. Acessado em: 07/04/2026.
Daoud, J. (2025). Twelve labs: Building multimodal video foundation models for better understanding. [link]. Acessado em: 07/04/2026.
Duarte, A. (2019). Throughput: entenda a importância dessa métrica. [link]. Acessado em: 07/04/2026.
Gomez, V. L. (2025). 20 anos do youtube: quantos vídeos existem na plataforma? descubra esse e outros segredos. [link]. Acessado em: 07/04/2026.
LLC, G. (2026). Video ai e inteligência. [link]. Acessado em: 07/04/2026.
Pandeló, N. (2026). Youtube fechou 2025 com 29 bilhões de vídeos; música e shorts são motores do consumo global. [link]. Acessado em: 07/04/2026.
Park, Y., Patwardhan, S., Visweswariah, K., and Gates, S. C. (2008). An empirical analysis of word error rate and keyword error rate. In Interspeech 2008, pages 2070–2073.
Services, A. W. (2026). Trabalhar com operações de análise de vídeo armazenado. [link]. Acessado em: 07/04/2026.
Software, S. (2023). Processamento de linguagem natural: O que é e qual sua importância? [link]. Acessado em: 07/04/2026.
Soni, A. A. (2025). Improving speech recognition accuracy using custom language models with the vosk toolkit. Cognizant Technology Solutions.
TOTVS, E. (2023). End to end: o que é, vantagens e como implementar. [link]. Acessado em: 07/04/2026.
In Gurevych, I. and Miyao, Y., editors, Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 20–24, Melbourne, Australia. Association for Computational Linguistics.
Charleaux, L. and Toledo, V. (2025). O que é memória ram? veja para que serve, como funciona e quais são os tipos. [link]. Acessado em: 07/04/2026.
Daoud, J. (2025). Twelve labs: Building multimodal video foundation models for better understanding. [link]. Acessado em: 07/04/2026.
Duarte, A. (2019). Throughput: entenda a importância dessa métrica. [link]. Acessado em: 07/04/2026.
Gomez, V. L. (2025). 20 anos do youtube: quantos vídeos existem na plataforma? descubra esse e outros segredos. [link]. Acessado em: 07/04/2026.
LLC, G. (2026). Video ai e inteligência. [link]. Acessado em: 07/04/2026.
Pandeló, N. (2026). Youtube fechou 2025 com 29 bilhões de vídeos; música e shorts são motores do consumo global. [link]. Acessado em: 07/04/2026.
Park, Y., Patwardhan, S., Visweswariah, K., and Gates, S. C. (2008). An empirical analysis of word error rate and keyword error rate. In Interspeech 2008, pages 2070–2073.
Services, A. W. (2026). Trabalhar com operações de análise de vídeo armazenado. [link]. Acessado em: 07/04/2026.
Software, S. (2023). Processamento de linguagem natural: O que é e qual sua importância? [link]. Acessado em: 07/04/2026.
Soni, A. A. (2025). Improving speech recognition accuracy using custom language models with the vosk toolkit. Cognizant Technology Solutions.
TOTVS, E. (2023). End to end: o que é, vantagens e como implementar. [link]. Acessado em: 07/04/2026.
Publicado
08/07/2026
Como Citar
HERCULANO, Rafael; FAGUNDES, Roberta.
Análise Comparativa de Eficiência Computacional e Word Error Rate (WER) em Ferramentas de Inteligência de Vídeo. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DA REGIÃO NORDESTE (ERAD-NE), 7. , 2026, Recife/PE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 47-51.
DOI: https://doi.org/10.5753/erad-ne.2026.26508.