Criação e Caracterização de um Corpus de Discurso Sexista em Português
Resumo
Identificar o discurso de disseminação de ódio e preconceito é um desafio contínuo para os ambientes de mídias sociais online. Uma caracterização e identificação precisa são peças-chave para tratar e mitigar a violência, assim como, educar os usuários de forma eficaz e assertiva. A disseminação online de ódio pode ser direcionada a grupos distintos de pessoas, o que gera várias classes de discurso de ódio, como por exemplo o racismo, a homofobia ou o sexismo. Esse último é um tópico cujo interesse social tem crescido a medida que a figura feminina vence as barreiras da desigualdade de gênero. Em particular, o discurso sexista propaga e incentiva o comportamento depreciativo e abusivo contra mulheres. Neste trabalho, apresentamos um corpus de discurso sexista em Português coletado a partir de portais de notícias de grande penetração popular, como G1 e UOL, por exemplo. O trabalho apresenta três contribuições principais: (1) o processo de criação do corpus e de rotulação de comentários (sexista/não sexista); (2) a caracterização e análise do corpus e do comportamento dos rotuladores anônimos; (3) uma avaliação inicial de técnicas de aprendizagem de máquina para classificação de comentários sexistas/não sexistas. Os resultados preliminares mostram que, ao utilizar support vector machine, é possível identificar comentários sexistas com uma medida F1 acima de 0,8, precisão acima de 0,9 e revocação próxima a 0,8.
Referências
GLICK, P.; FISKE, S. T. The ambivalent sexism inventory: Differentiating hostile and benevolent sexism. In:Social Cognition. [S.l.]: Routledge, 2018. p. 116–160. 2, 3
VIANNA, J.; HISING, E.Homem é condenado a 41 anos de prisão por crimes como racismo, terrorismo e divulgação de pedofilia na internet. G1, 2018. Disponível em https://glo.bo/2sjxAJ5. Acesso em: 30 de abril de 2020. 2
ROSSI, M.Mulher espancada após boatos em rede social morre em Guarujá, SP. G1,2014. Disponível em: https://glo.bo/37GfDVv. Acesso em: 30 de abril de 2020. 2
OLIVEIRA, S.Adolescente vítima de bullying se suicida por ‘não aguentar mais’. Redação Amazonas 1, 2018. Disponível em: http://bit.ly/2st6sHX. Acesso em: 30 de abril de 2020. 2
MARQUES, J. J.; SANTOS, J. L. dos.Mapa da Violência Contra a Mulher. [S.l.]:CMULHER, 2018. 2
BANKS, J. Regulating hate speech online.International Review of Law, Computers Technology, p. 233–239, 2010. 2
DAVIDSON, T.; WARMSLEY, D.; MACY, M. Automated hate speech detection and the problem of offensive language.Eleventh International AAAI Conference on Web and Social Media, 2017. 2, 3, 4, 9
KWOK, I.; WANG, Y. Locate the hate: Detecting tweets against blacks. In:Twenty-seventh AAAI conference on artificial intelligence. [S.l.: s.n.], 2013. 2, 3, 9
BADJATIYA, P.; GUPTA, S.; GUPTA, M. Deep learning for hate speech detection in tweets. p. 759–760, 2017. 3
PARK, J. H.; FUNG, P. One-step and two-step classification for abusive language detection on twitter.arXiv preprint arXiv:1706.01206, 2017. 3
PANG, B.; LEE, L.; VAITHYANATHAN, S. Thumbs up?: sentiment classification using machine learning techniques. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS.Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. [S.l.], 2002. p. 79–86. 3
PEDREGOSA, F. et al. Scikit-learn: Machine learning in python.the Journal of machine Learning research, JMLR. org, v. 12, p. 2825–2830, 2011. 10