Caracterização e Comportamento de Usuários Tóxicos em Subreddits Brasileiros
Resumo
Embora a detecção de toxicidade seja bem estudada, os padrões comportamentais dos usuários que geram esse conteúdo em comunidades lusófonas permanecem pouco explorados. Analisamos contas tóxicas no Reddit brasileiro processando 6,5 milhões de comentários dos 10 maiores subreddits em 2022 com um modelo BERTabaporu ajustado. Usuários “Altamente Reincidentes” (≈5% das contas tóxicas) produzem mais de 52% do conteúdo nocivo via broadcasting. A toxicidade concentra-se em comunidades políticas e esportivas, com picos ligados a eventos reais, e é recompensada com upvotes, sugerindo engajamento movido por indignação moral. Os achados sustentam estratégias de moderação focadas no comportamento do usuário.Referências
Almeida, T. S. et al. (2024). Sabiá-2: A new generation of portuguese large language models.
Baumgartner, J. et al. (2020). The pushshift reddit dataset. In Proc. of the Int. AAAI Conf. on Web and Social Media (ICWSM), volume 14, pages 830–839.
Brady, W. J. et al. (2017). Emotion shapes the diffusion of moralized content in social networks. Proceedings of the National Academy of Sciences, 114(28):7313–7318.
CNN Brasil (2022a). Monark é desligado do flow podcast após defender existência de partido nazista. Acesso em: dez. 2025.
CNN Brasil (2022b). Olavo de carvalho morre aos 74 anos nos estados unidos. Acesso em: dez. 2025.
Costa, P. B. et al. (2023). BERTabaporu: Assessing a genre-specific language model for Portuguese NLP. In Mitkov, R. and Angelova, G., editors, Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, pages 217–223, Varna, Bulgaria. INCOMA Ltd., Shoumen, Bulgaria.
Crockett, M. J. (2017). Moral outrage in the digital age. Nature Human Behaviour, 1(11):769–771.
de Pelle, R. and Moreira, V. (2017). Offensive comments in the brazilian web: a dataset and baseline results. In Anais do VI Brazilian Workshop on Social Network Analysis and Mining, pages 510–519, Porto Alegre, RS, Brasil. SBC.
Ding, B., Qin, C., Zhao, R., Luo, T., Li, X., Chen, G., Xia, W., Hu, J., Luu, A. T., and Joty, S. (2024). Data augmentation using large language models: Data perspectives, learning paradigms and challenges.
Duggan, M. (2017). Online harassment 2017. Technical report, Pew Research Center.
Fortuna, P., Rocha da Silva, J., Soler-Company, J., Wanner, L., and Nunes, S. (2019). A hierarchically-labeled Portuguese hate speech dataset. In Roberts, S. T., Tetreault, J., Prabhakaran, V., and Waseem, Z., editors, Proceedings of the Third Workshop on Abusive Language Online, pages 94–104, Florence, Italy. Association for Computational Linguistics.
G1 (2022a). Bolsonaro reúne embaixadores para repetir sem provas suspeitas já esclarecidas sobre urnas. Acesso em: dez. 2025.
G1 (2022b). Bolsonaro usa 7 de setembro para fazer campanha, puxa coro machista e reúne multidões em atos com faixas antidemocráticas. Acesso em: dez. 2025.
G1 (2022c). Em áudios, arthur do val disse que ucranianas são ’fáceis, porque são pobres’. Acesso em: dez. 2025.
G1 (2022d). Lula vence o segundo turno e volta para o terceiro mandato de presidente. Acesso em: dez. 2025.
Globo Esporte (2022). Brasil perde para a croácia nos pênaltis e dá adeus à copa do mundo. Acesso em: dez. 2025.
Jiang, A. Q. et al. (2023). Mistral 7b.
Kumar, D. et al. (2023). Understanding the behaviors of toxic accounts on reddit. In Proc. of the ACM Web Conf. 2023 (WWW ’23), pages 2797–2807. ACM.
Leavitt, A. (2015). ”this is a throwaway account”: Temporary technical identities and perceptions of anonymity in a massive online community. In Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, CSCW ’15, page 317–327, New York, NY, USA. Association for Computing Machinery.
Leite, J. A. et al. (2020). Toxic language detection in social media for brazilian portuguese: New dataset and multilingual analysis. arXiv preprint arXiv:2010.04543.
Lima, L. H. Q., Pagano, A. S., and da Silva, A. P. C. (2024). Toxic content detection in online social networks: A new dataset from brazilian reddit communities. In Gamallo, P., Claro, D., Teixeira, A., Real, L., Garcia, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1, pages 472–482, Santiago de Compostela, Galicia/Spain. Association for Computational Lingustics.
Mathew, B. et al. (2020). Hate begets hate: A temporal study of hate speech. Proc. ACM Hum.-Comput. Interact. (CSCW), 4(CSCW2):1–25.
Olteanu, A. et al. (2018). The effect of extremist violence on hateful speech online.
Park, J. S. et al. (2022). Measuring the prevalence of anti-social behavior in online communities.
Piorino, G., Machado, M. A. d. A., Lima, L. H. Q., Pagano, A., and Silva, A. P. C. d. (2026). Diálogos tóxicos: Gatilhos e padrões de interação no Reddit brasileiro. In Souza, M., de Dios-Flores, I., Santos, D., Freitas, L., Souza, J. W. d. C., and Ribeiro, E., editors, Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 581–590, Salvador, Brazil. Association for Computational Linguistics.
Ribeiro, M. H. et al. (2018). Characterizing and detecting hateful users on twitter. In Proceedings of the International AAAI Conference on Web and Social Media, volume 12.
Thomas, K. et al. (2021). Sok: Hate, harassment, and the changing landscape of online abuse. In 2021 IEEE Symposium on Security and Privacy (SP), pages 361–380.
Touvron, H. et al. (2023). Llama 2: Open foundation and fine-tuned chat models.
Uol (2022a). 1º de maio é marcado por atos pró-lula e pró-bolsonaro. Acesso em: dez. 2025.
Uol (2022b). O que se sabe sobre os protestos que bloqueiam rodovias. Acesso em: dez. 2025.
Uol (2022c). Prf sobre morte de homem negro por policiais do órgão em se: ’indignação’. Acesso em: dez. 2025.
Vargas, F. et al. (2022). Hatebr: A large expert annotated corpus of brazilian instagram comments for offensive language and hate speech detection. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 7174–7183.
Vogels, E. A. (2021). The state of online harassment.
Xia, Y., Taylor, J., Nabeshima, T., and Mutton, P. (2020). Exploring antecedents and consequences of toxicity in online discussions: A case study on reddit. Proceedings of the ACM on Human-Computer Interaction, 4(CSCW2):1–23.
Baumgartner, J. et al. (2020). The pushshift reddit dataset. In Proc. of the Int. AAAI Conf. on Web and Social Media (ICWSM), volume 14, pages 830–839.
Brady, W. J. et al. (2017). Emotion shapes the diffusion of moralized content in social networks. Proceedings of the National Academy of Sciences, 114(28):7313–7318.
CNN Brasil (2022a). Monark é desligado do flow podcast após defender existência de partido nazista. Acesso em: dez. 2025.
CNN Brasil (2022b). Olavo de carvalho morre aos 74 anos nos estados unidos. Acesso em: dez. 2025.
Costa, P. B. et al. (2023). BERTabaporu: Assessing a genre-specific language model for Portuguese NLP. In Mitkov, R. and Angelova, G., editors, Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, pages 217–223, Varna, Bulgaria. INCOMA Ltd., Shoumen, Bulgaria.
Crockett, M. J. (2017). Moral outrage in the digital age. Nature Human Behaviour, 1(11):769–771.
de Pelle, R. and Moreira, V. (2017). Offensive comments in the brazilian web: a dataset and baseline results. In Anais do VI Brazilian Workshop on Social Network Analysis and Mining, pages 510–519, Porto Alegre, RS, Brasil. SBC.
Ding, B., Qin, C., Zhao, R., Luo, T., Li, X., Chen, G., Xia, W., Hu, J., Luu, A. T., and Joty, S. (2024). Data augmentation using large language models: Data perspectives, learning paradigms and challenges.
Duggan, M. (2017). Online harassment 2017. Technical report, Pew Research Center.
Fortuna, P., Rocha da Silva, J., Soler-Company, J., Wanner, L., and Nunes, S. (2019). A hierarchically-labeled Portuguese hate speech dataset. In Roberts, S. T., Tetreault, J., Prabhakaran, V., and Waseem, Z., editors, Proceedings of the Third Workshop on Abusive Language Online, pages 94–104, Florence, Italy. Association for Computational Linguistics.
G1 (2022a). Bolsonaro reúne embaixadores para repetir sem provas suspeitas já esclarecidas sobre urnas. Acesso em: dez. 2025.
G1 (2022b). Bolsonaro usa 7 de setembro para fazer campanha, puxa coro machista e reúne multidões em atos com faixas antidemocráticas. Acesso em: dez. 2025.
G1 (2022c). Em áudios, arthur do val disse que ucranianas são ’fáceis, porque são pobres’. Acesso em: dez. 2025.
G1 (2022d). Lula vence o segundo turno e volta para o terceiro mandato de presidente. Acesso em: dez. 2025.
Globo Esporte (2022). Brasil perde para a croácia nos pênaltis e dá adeus à copa do mundo. Acesso em: dez. 2025.
Jiang, A. Q. et al. (2023). Mistral 7b.
Kumar, D. et al. (2023). Understanding the behaviors of toxic accounts on reddit. In Proc. of the ACM Web Conf. 2023 (WWW ’23), pages 2797–2807. ACM.
Leavitt, A. (2015). ”this is a throwaway account”: Temporary technical identities and perceptions of anonymity in a massive online community. In Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing, CSCW ’15, page 317–327, New York, NY, USA. Association for Computing Machinery.
Leite, J. A. et al. (2020). Toxic language detection in social media for brazilian portuguese: New dataset and multilingual analysis. arXiv preprint arXiv:2010.04543.
Lima, L. H. Q., Pagano, A. S., and da Silva, A. P. C. (2024). Toxic content detection in online social networks: A new dataset from brazilian reddit communities. In Gamallo, P., Claro, D., Teixeira, A., Real, L., Garcia, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1, pages 472–482, Santiago de Compostela, Galicia/Spain. Association for Computational Lingustics.
Mathew, B. et al. (2020). Hate begets hate: A temporal study of hate speech. Proc. ACM Hum.-Comput. Interact. (CSCW), 4(CSCW2):1–25.
Olteanu, A. et al. (2018). The effect of extremist violence on hateful speech online.
Park, J. S. et al. (2022). Measuring the prevalence of anti-social behavior in online communities.
Piorino, G., Machado, M. A. d. A., Lima, L. H. Q., Pagano, A., and Silva, A. P. C. d. (2026). Diálogos tóxicos: Gatilhos e padrões de interação no Reddit brasileiro. In Souza, M., de Dios-Flores, I., Santos, D., Freitas, L., Souza, J. W. d. C., and Ribeiro, E., editors, Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 581–590, Salvador, Brazil. Association for Computational Linguistics.
Ribeiro, M. H. et al. (2018). Characterizing and detecting hateful users on twitter. In Proceedings of the International AAAI Conference on Web and Social Media, volume 12.
Thomas, K. et al. (2021). Sok: Hate, harassment, and the changing landscape of online abuse. In 2021 IEEE Symposium on Security and Privacy (SP), pages 361–380.
Touvron, H. et al. (2023). Llama 2: Open foundation and fine-tuned chat models.
Uol (2022a). 1º de maio é marcado por atos pró-lula e pró-bolsonaro. Acesso em: dez. 2025.
Uol (2022b). O que se sabe sobre os protestos que bloqueiam rodovias. Acesso em: dez. 2025.
Uol (2022c). Prf sobre morte de homem negro por policiais do órgão em se: ’indignação’. Acesso em: dez. 2025.
Vargas, F. et al. (2022). Hatebr: A large expert annotated corpus of brazilian instagram comments for offensive language and hate speech detection. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 7174–7183.
Vogels, E. A. (2021). The state of online harassment.
Xia, Y., Taylor, J., Nabeshima, T., and Mutton, P. (2020). Exploring antecedents and consequences of toxicity in online discussions: A case study on reddit. Proceedings of the ACM on Human-Computer Interaction, 4(CSCW2):1–23.
Publicado
19/07/2026
Como Citar
MACHADO, Marco Antônio de Alcântara; PIORINO, Giovana; LIMA, Luiz Henrique Quevedo; SILVA, Ana Paula Couto da.
Caracterização e Comportamento de Usuários Tóxicos em Subreddits Brasileiros. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 15. , 2026, Gramado/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 28-41.
ISSN 2595-6094.
DOI: https://doi.org/10.5753/brasnam.2026.22746.
