Análise de Sentimentos no YouTube para Conteúdo Infantil: IA para Reclassificar Resultados de Busca

Rafael Vargas Mesquita Santos; João Victor de Salles; Flávio Izo; Sabrina Vargas

doi:10.5753/wics.2026.20948

Rafael Vargas Mesquita Santos IFES
João Victor de Salles IFES
Flávio Izo IFES
Sabrina Vargas Universidade do Espírito Santo

DOI: https://doi.org/10.5753/wics.2026.20948

Resumo

Apresentamos abordagem nativa para reclassificar buscas infantis no YouTube via Análise de Sentimentos. Com corpus específico (2.749 sentenças, balanceado entre três classes) e ajuste fino do BERTimbau, o classificador final — ensemble de cinco modelos da validação cruzada — obteve 79,84% de F1-macro no teste retido (79,64% acurácia) e F1 91,2% na classe Negativo — métrica crítica para segurança infantil. O Random Oversampling é aplicado apenas nos folds de treino; o teste (20%) permanece intacto para generalização. Protótipo web integra Score de Segurança interpretável para reordenar resultados priorizando vídeos educativos. A solução opera em português do Brasil, sem tradução automática, preservando nuances linguísticas.

Referências

Baracho, J. K. d. C. M., Lisboa, L. A., and Lopes, R. V. V. (2025). Levantamento e análise qualitativa de bases de dados de fake news em português. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 169–180. SBC.

Basak, S., Agrawal, H., Jena, S., Gite, S., Bachute, M., Pradhan, B., and Assiri, M. (2023). Challenges and limitations in speech recognition technology: A critical review of speech signal processing algorithms, tools and systems. Computer Modeling in Engineering & Sciences, 135(2):899–929.

Batista, G. E., Prati, R. C., and Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. ACM SIGKDD explorations newsletter, 6(1):20–29.

Benevenuto, F., Ribeiro, F., and Araújo, M. (2015). Métodos para análise de sentimentos em mídias sociais. In Short course in the Brazilian Symposium on Multimedia and the Web (Webmedia), pages 1–30.

Candido, L. S., Barbosa, C. A. d. M., Martins, L. G., and Costa, E. J. H. (2025). Análise de ferramentas de detecção de ia para textos científicos em português gerados por chatgpt, gemini e deepseek. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 78–91. SBC.

Chalkias, I. et al. (2023). Learning analytics on YouTube educational videos: Exploring sentiment analysis methods and topic clustering. Electronics, 12(18):3949.

Clipto.ai (2025). Clipto: Ai-powered video to text & content repurposing. Acesso em: 21 set. 2025.

da Rosa Jr., J. M. et al. (2024). Characterizing YouTube’s role in online gambling promotion: A case study of Fortune Tiger in Brazil. In Proceedings of the ACM Web Science Conference. ACM.

Finatto, M. J. B., Lopes, L., and Silva, A. C. (2015). Processamento de linguagem natural, linguística de corpus e estudos linguísticos: uma parceria bem-sucedida. Domínios de lingu@ gem. Uberlândia, MG. Vol. 9, n. 5 (dez. 2015), p.[41]-59.

Firmino, V. P., Lopes, J. N. d. S., and Reis, V. Q. (2025). Identificando padrões de sexismo na música brasileira através do processamento de linguagem natural. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 59–69. SBC.

Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5):378–382.

Gonzalez, M. and Lima, V. L. S. (2003). Recuperação de informação e processamento da linguagem natural. In XXIII Congresso da Sociedade Brasileira de Computação, volume 3, pages 347–395. sn.

He, H. and Garcia, E. A. (2009). Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, 21(9):1263–1284.

Jurafsky, D. and Martin, J. H. (2023). Speech and Language Processing. Stanford University, 3rd edition draft edition. Acesso em: 21 set. 2025.

Kohavi, R. et al. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. In Ijcai, volume 14, pages 1137–1145. Montreal, Canada.

Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1):159–174.

Le, B., Tandon, R., Oinar, C., Liu, J., Durairaj, U., Guo, J., Zahabizadeh, S., Ilango, S., Tang, J., Morstatter, F., Woo, S., and Mirkovic, J. (2022). Samba: Identifying inappropriate videos for young children on YouTube. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pages 4173–4177. ACM.

Liu, B. (2022). Sentiment analysis and opinion mining. Springer Nature.

Medeiros, M. C. R. and de Freitas Neto, F. P. (2025). Um estudo sobre vieses de gênero em modelos de pln aplicado em histórias geradas pelo gpt-3.5 e gemini. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 41–52. SBC.

Miranda, A. L. d. A. and Rodrigues, C. M. d. O. (2025). Uma abordagem integrada para detecção de discurso de ódio em mídias sociais utilizando vetorização de textos e emojis. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 247–255. SBC.

Nunes, M. d. G. V. (2023). E agora, pln? In Pardo, T. A. S. et al., editors, Processamento de Linguagem Natural: conceitos, técnicas e aplicações em português, chapter 25. Brasileiras de PLN (Brapaln), São Carlos.

Ramos, B. and Freitas, C. (2019). Sentimento de quê?¨ uma lista de sentimentos para a análise de sentimentos. STIL, pages 15–18.

Reis, J., Gonçalves, P., Araújo, M., Pereira, A. C., and Benevenuto, F. (2015). Uma abordagem multilíngue para análise de sentimentos. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM). SBC.

Rosa, R. L. (2015). Análise de sentimentos e afetividade de textos extraídos das redes sociais. PhD thesis, Universidade de São Paulo.

Santos, R. V. M. and Comarela, G. V. (2025). Development of an equity strategy for recommendation systems. In Workshop on the Implications of Computing in Society (WICS), pages 24–35. SBC.

Silva, M. J., Carvalho, P., and Sarmento, L. (2012). SentiLex-PT: Principais características e evolução. In Linguamática, volume 4, pages 21–33.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: pretrained bert models for brazilian portuguese. In Brazilian conference on intelligent systems, pages 403–417. Springer.

Souza, R. R. and Café, L. M. A. (2018). Análise de sentimento aplicada ao estudo de letras de música. Informação & Sociedade, 28(3).

Valença, L. R. and Santos, R. d. S. (2025). Justiça algorítmica: Instrumentalização, limites conceituais e desafios na engenharia de software. In Workshop sobre as Implicações da Computação na Sociedade (WICS), pages 225–234. SBC.