Detecção de Homofobia em Português do Brasil: Construção de Conjunto de Dados e Modelo de Classificação Automática

Vinícius Soares dos Santos; Gustavo Guedes

doi:10.5753/brasnam.2026.21838

Vinícius Soares dos Santos CEFET/RJ
Gustavo Guedes CEFET/RJ

DOI: https://doi.org/10.5753/brasnam.2026.21838

Resumo

Este artigo investiga a detecção de homofobia em português do Brasil por meio de ampliação lexical, construção de conjunto de dados rotulado e classificação automática de textos. Inicialmente, um recurso lexical prévio é expandido com termos e expressões homofóbicas obtidos com participantes humanos. Em seguida, o léxico resultante orienta a coleta e a rotulagem de mensagens em rede social. Por fim, modelos supervisionados são treinados para classificação binária. O estudo produz um léxico expandido, um conjunto de dados rotulado em português do Brasil e resultados promissores (F1 = 0,8688).

Referências

Antunes, M. B. A., Issa, M. d. F., and Hoed, R. M. (2023). TÉcnicas de machine learning aplicada a mineraÇÃo de dados e anÁlise de sentimentos para prediÇÃo de homofobia no twitter. REVISTA FOCO, 16(1):e853.

Caseli, H. d. M. and Nunes, M. d. G. V. (2024). Processamento de linguagem natural: conceitos, técnicas e aplicações em português.

Chakravarthi, B. R., Kumaresan, P. K., Priyadharshini, R., Buitelaar, P., Hegde, A., Shashirekha, H. L., Rajiakodi, S., García-Cumbreras, M. Á., Jiménez-Zafra, S. M., García-Díaz, J. A., Valencia-García, R., Ponnusamy, K. K., Shetty, P., and García-Baena, D. (2024). Overview of third shared task on homophobia and transphobia detection in social media comments. In Chakravarthi, B. R., B, B., Buitelaar, P., Durairaj, T., Kovács, G., and García Cumbreras, M. Á., editors, Proceedings of the Fourth Workshop on Language Technology for Equality, Diversity, Inclusion, pages 124–132, St. Julian’s, Malta. Association for Computational Linguistics.

Chan, F. L., Nguyen, D., and Joshi, A. (2024). “is hate lost in translation?”: Evaluation of multilingual LGBTQIA+ hate speech detection. In Baldwin, T., Rodríguez Méndez, S. J., and Kuo, N., editors, Proceedings of the 22nd Annual Workshop of the Australasian Language Technology Association, pages 146–152, Canberra, Australia. Association for Computational Linguistics.

Costa, A. B. and Nardi, H. C. (2015). Homofobia e preconceito contra diversidade sexual: debate conceitual. Temas em Psicologia, 23:715 – 726.

de Pelle, R. and Moreira, V. (2017). Offensive comments in the brazilian web: a dataset and baseline results. In Anais do VI Brazilian Workshop on Social Network Analysis and Mining, pages 510–519, Porto Alegre, RS, Brasil. SBC.

Fortuna, P., Rocha, J., Soler Company, J., Wanner, L., and Nunes, S. (2019). A hierarchically-labeled portuguese hate speech dataset. pages 94–104.

Hatebase, I. (2020). How it works? [link]. Acessado em 13 de setembro 2020.

Kumaresan, P. K., Ponnusamy, R., Sharma, D., Buitelaar, P., and Chakravarthi, B. R. (2024). Dataset for identification of homophobia and transphobia for Telugu, Kannada, and Gujarati. In Calzolari, N., Kan, M.-Y., Hoste, V., Lenci, A., Sakti, S., and Xue, N., editors, Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 4404–4411, Torino, Italia. ELRA and ICCL.

Locatelli, D., Damo, G., and Nozza, D. (2023). A cross-lingual study of homotransphobia on Twitter. In Dev, S., Prabhakaran, V., Adelani, D. I., Hovy, D., and Benotti, L., editors, Proceedings of the First Workshop on Cross-Cultural Considerations in NLP (C3NLP), pages 16–24, Dubrovnik, Croatia. Association for Computational Linguistics.

MacAvaney, S., Yao, H.-R., Yang, E., Russell, K., Goharian, N., and Frieder, O. (2019). Hate speech detection: Challenges and solutions. PLOS ONE, 14(8):1–16. DOI: 10.1371/journal.pone.0221152. Acessado em: 2020-09-21.

Santos, V., Henriques, F., and Guedes, G. (2022). O discurso de Ódio homofóbico no twitter a partir da análise de dados. In Anais do XI Brazilian Workshop on Social Network Analysis and Mining, pages 109–120, Porto Alegre, RS, Brasil. SBC.

Detecção de Homofobia em Português do Brasil: Construção de Conjunto de Dados e Modelo de Classificação Automática

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)