Criação e Caracterização de um Corpus de Discurso Sexista em Português

  • M. Luísa P. Braga UFA
  • Fabíola G. Nakamura UFA
  • Eduardo F. Nakamura UFA

Resumo


Identificar o discurso de disseminação de ódio e preconceito é um desafio contínuo para os ambientes de mídias sociais online. Uma caracterização e identificação precisa são peças-chave para tratar e mitigar a violência, assim como, educar os usuários de forma eficaz e assertiva. A disseminação online de ódio pode ser direcionada a grupos distintos de pessoas, o que gera várias classes de discurso de ódio, como por exemplo o racismo, a homofobia ou o sexismo. Esse último é um tópico cujo interesse social tem crescido a medida que a figura feminina vence as barreiras da desigualdade de gênero. Em particular, o discurso sexista propaga e incentiva o comportamento depreciativo e abusivo contra mulheres. Neste trabalho, apresentamos um corpus de discurso sexista em Português coletado a partir de portais de notícias de grande penetração popular, como G1 e UOL, por exemplo. O trabalho apresenta três contribuições principais: (1) o processo de criação do corpus e de rotulação de comentários (sexista/não sexista); (2) a caracterização e análise do corpus e do comportamento dos rotuladores anônimos; (3) uma avaliação inicial de técnicas de aprendizagem de máquina para classificação de comentários sexistas/não sexistas. Os resultados preliminares mostram que, ao utilizar support vector machine, é possível identificar comentários sexistas com uma medida F1 acima de 0,8, precisão acima de 0,9 e revocação próxima a 0,8.

Palavras-chave: sexismo, discurso de ódio

Referências

SMIGAY, K. E. V. Sexismo, homofobia e outras expressões correlatas de violência: desafios para a psicologia política. Psicologia em revista, v. 8, n. 11, p. 32–46, 2002. 2,3

GLICK, P.; FISKE, S. T. The ambivalent sexism inventory: Differentiating hostile and benevolent sexism. In:Social Cognition. [S.l.]: Routledge, 2018. p. 116–160. 2, 3

VIANNA, J.; HISING, E.Homem é condenado a 41 anos de prisão por crimes como racismo, terrorismo e divulgação de pedofilia na internet. G1, 2018. Disponível em https://glo.bo/2sjxAJ5. Acesso em: 30 de abril de 2020. 2

ROSSI, M.Mulher espancada após boatos em rede social morre em Guarujá, SP. G1,2014. Disponível em: https://glo.bo/37GfDVv. Acesso em: 30 de abril de 2020. 2

OLIVEIRA, S.Adolescente vítima de bullying se suicida por ‘não aguentar mais’. Redação Amazonas 1, 2018. Disponível em: http://bit.ly/2st6sHX. Acesso em: 30 de abril de 2020. 2

MARQUES, J. J.; SANTOS, J. L. dos.Mapa da Violência Contra a Mulher. [S.l.]:CMULHER, 2018. 2

BANKS, J. Regulating hate speech online.International Review of Law, Computers Technology, p. 233–239, 2010. 2

DAVIDSON, T.; WARMSLEY, D.; MACY, M. Automated hate speech detection and the problem of offensive language.Eleventh International AAAI Conference on Web and Social Media, 2017. 2, 3, 4, 9

KWOK, I.; WANG, Y. Locate the hate: Detecting tweets against blacks. In:Twenty-seventh AAAI conference on artificial intelligence. [S.l.: s.n.], 2013. 2, 3, 9

BADJATIYA, P.; GUPTA, S.; GUPTA, M. Deep learning for hate speech detection in tweets. p. 759–760, 2017. 3

PARK, J. H.; FUNG, P. One-step and two-step classification for abusive language detection on twitter.arXiv preprint arXiv:1706.01206, 2017. 3

PANG, B.; LEE, L.; VAITHYANATHAN, S. Thumbs up?: sentiment classification using machine learning techniques. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS.Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. [S.l.], 2002. p. 79–86. 3

PEDREGOSA, F. et al. Scikit-learn: Machine learning in python.the Journal of machine Learning research, JMLR. org, v. 12, p. 2825–2830, 2011. 10
Publicado
30/06/2020
BRAGA, M. Luísa P.; NAKAMURA, Fabíola G.; NAKAMURA, Eduardo F.. Criação e Caracterização de um Corpus de Discurso Sexista em Português. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 9. , 2020, Cuiabá. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 97-107. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2020.11166.