Uma Abordagem Integrada para Detecção de Discurso de Ódio em Mídias Sociais Utilizando Vetorização de Textos e Emojis
Resumo
Este artigo propõe uma abordagem integrada para detecção de discurso de ódio em mídias sociais, combinando três dimensões principais: (1) fusão de datasets em português brasileiro (HateBR e TuPy-E), (2) processamento conjunto de textos e emojis, e (3) arquitetura classificatória em duas etapas (binária e multiclasse). Utilizando o modelo BERTimbau adaptado para capturar relações semânticas e representações de emojis, o sistema realiza primeiro uma classificação binária (ódio vs não-ódio) seguida de categorização específica (Xenofobia, gênero/sexualidade, etc). Os resultados alcançaram 85% de acurácia na etapa binária e até 86% em categorias específicas. Discute-se a relação entre volume de dados e desempenho, bem como estratégias futuras para aprimoramento do modelo, incluindo o uso de LLMs (Large Language Models) e integração de metadados.Referências
Aizawa, A. (2003). An information-theoretic perspective of tf-idf measures. Information Processing Management, 39(1):45–65.
Almaliki, M., Almars, A. M., Gad, I., and Atlam, E.-S. (2023). Abmm: Arabic bert-mini model for hate-speech detection on social media. Electronics, 12(1048).
ANDES (2023). Brasil lidera discurso de ódio nas redes sociais contra população lgbtqiap+. Acesso em: 20 de março de 2025.
BR, U. (2023). O discurso de ódio ’é um dos sinais de alerta de genocídio e de outros crimes atrozes,’ alerta guterres. Acesso em: 20 de março de 2025.
BR, U. (2024). Como podemos ajudar a combater o discurso de ódio nas redes sociais. Acesso em: 20 de março de 2025.
Caseli, H. M. and (orgs.), M. G. V. N. (2023). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. BPLN.
Ebecken, N., Lopes, M., and Costa, M. (2003). Mineração de textos. In Capítulo 13, p. 337–370. Manole.
Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O’Reilly Media, Inc., 1st edition.
Lorena, A. C. and de Carvalho, A. C. (2007). Uma introdução às support vector machines. Revista de Informática Teórica e Aplicada, 14(2):43–67.
Nacional, J. (2023). Denúncias de crimes envolvendo discurso de ódio nas redes sociais triplicaram nos últimos 6 anos, aponta levantamento. Acesso em: 20 de março de 2025.
Nascimento, F. R. S., Cavalcanti, G. D. C., and Costa-Abreu, M. D. (2023). Exploring automatic hate speech detection on social media: A focus on content-based analysis. SAGE Open, April-June 2023:1–19.
Oliveira, F., Reis, V., and Ebecken, N. (2023). Tupy-e: Detecting hate speech in brazilian portuguese social media with a novel dataset and comprehensive analysis of models. arXiv preprint.
Vargas, F., Carvalho, I., Goés, F., Pardo, T. A., and Benevenuto, F. (2022). Hatebr: A large expert annotated corpus of brazilian instagram comments for offensive language and hate speech detection. arXiv preprint.
Almaliki, M., Almars, A. M., Gad, I., and Atlam, E.-S. (2023). Abmm: Arabic bert-mini model for hate-speech detection on social media. Electronics, 12(1048).
ANDES (2023). Brasil lidera discurso de ódio nas redes sociais contra população lgbtqiap+. Acesso em: 20 de março de 2025.
BR, U. (2023). O discurso de ódio ’é um dos sinais de alerta de genocídio e de outros crimes atrozes,’ alerta guterres. Acesso em: 20 de março de 2025.
BR, U. (2024). Como podemos ajudar a combater o discurso de ódio nas redes sociais. Acesso em: 20 de março de 2025.
Caseli, H. M. and (orgs.), M. G. V. N. (2023). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. BPLN.
Ebecken, N., Lopes, M., and Costa, M. (2003). Mineração de textos. In Capítulo 13, p. 337–370. Manole.
Géron, A. (2017). Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O’Reilly Media, Inc., 1st edition.
Lorena, A. C. and de Carvalho, A. C. (2007). Uma introdução às support vector machines. Revista de Informática Teórica e Aplicada, 14(2):43–67.
Nacional, J. (2023). Denúncias de crimes envolvendo discurso de ódio nas redes sociais triplicaram nos últimos 6 anos, aponta levantamento. Acesso em: 20 de março de 2025.
Nascimento, F. R. S., Cavalcanti, G. D. C., and Costa-Abreu, M. D. (2023). Exploring automatic hate speech detection on social media: A focus on content-based analysis. SAGE Open, April-June 2023:1–19.
Oliveira, F., Reis, V., and Ebecken, N. (2023). Tupy-e: Detecting hate speech in brazilian portuguese social media with a novel dataset and comprehensive analysis of models. arXiv preprint.
Vargas, F., Carvalho, I., Goés, F., Pardo, T. A., and Benevenuto, F. (2022). Hatebr: A large expert annotated corpus of brazilian instagram comments for offensive language and hate speech detection. arXiv preprint.
Publicado
20/07/2025
Como Citar
MIRANDA, Arthur Lima de Araújo; RODRIGUES, Cleyton Mário de Oliveira.
Uma Abordagem Integrada para Detecção de Discurso de Ódio em Mídias Sociais Utilizando Vetorização de Textos e Emojis. In: WORKSHOP SOBRE AS IMPLICAÇÕES DA COMPUTAÇÃO NA SOCIEDADE (WICS), 6. , 2025, Maceió/AL.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 247-255.
ISSN 2763-8707.
DOI: https://doi.org/10.5753/wics.2025.8136.
