Extração de característica para identificação de discurso de ódio em documentos

  • Cleiton Lima UFFS
  • Guilherme Dal Bianco UFFS

Resumo


As mı́dias sociais estão cada vez mais presentes na vida das pessoas, incluindo ferramentas que permitam que o usuário colabore com a criação do conteúdo nelas exposto. Muitos usuários se aproveitam dessa funcionalidade para disseminar conteúdo ilı́cito ou criminoso. Caso não seja removido, este conteúdo será visto por cada vez mais pessoas e poderá ser propagado pela internet, atingindo um número maior de vı́timas e incentivando a ocorrência de outros crimes. Este artigo propõe explorar e extrair caracterı́sticas de textos utilizando técnicas de processamento de linguagem natural e aprendizado de máquina para detectar automaticamente discursos de ódio. Os experimentos demonstraram que o método foi capaz de melhorar a qualidade em até 3,5% em relação ao método base.

Palavras-chave: Mídias Sociais, Extração de Características, Discurso, Ódio

Referências

Batista, G. E. d. A. P. et al. (2003). Pré-processamento de dados em aprendizado de máquina supervisionado. PhD thesis, Universidade de São Paulo.

Canuto, S., Gonc¸alves, L. F., Salles, T., and Gonçalves, M. A. (2013). Um estudo sobre meta-atributos para classificação automática de texto.

Canuto, S., Gonçalves, M. A., and Benevenuto, F. (2016). Exploiting new sentimentbased meta-level features for effective sentiment analysis. In Proceedings of the ninth

Chen, Y., Zhou, Y., Zhu, S., and Xu, H. (2012). Detecting offensive language in social media to protect adolescent online safety. In 2012 International Conference on Privacy, Security, Risk and Trust and 2012 International Confernece on Social Computing, pages 71–80. IEEE.

de Pelle, R. P. and Moreira, V. P. (2017). Offensive comments in the brazilian web: a dataset and baseline results. In 6th Brazilian Workshop on Social Network Analysis and Mining (BraSNAM). to appear.

Nakamura, F. G. et al. (2017). Uma abordagem para identificar e monitorar haters em redes sociais online.

Nobata, C., Tetreault, J., Thomas, A., Mehdad, Y., and Chang, Y. (2016). Abusive language detection in online user content. In Proceedings of the 25th international conference on world wide web, pages 145–153. International World Wide Web Conferences Steering Committee.

Nockleby, J. T. (2000). Hate speech. Encyclopedia of the American constitution, 3:1277–79.

Schmidt, A. and Wiegand, M. (2017). A survey on hate speech detection using natural language processing. In Proceedings of the Fifth International Workshop on Natural Language Processing for Social Media, pages 1–10.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1):1–47.

Sood, S. O., Antin, J., and Churchill, E. (2012a). Using crowdsourcing to improve profanity detection. In 2012 AAAI Spring Symposium Series.

Sood, S. O., Churchill, E. F., and Antin, J. (2012b). Automatic identification of personal insults on social news sites. Journal of the American Society for Information Science and Technology, 63(2):270–285.
Publicado
10/04/2019
LIMA, Cleiton; DAL BIANCO, Guilherme. Extração de característica para identificação de discurso de ódio em documentos. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 15. , 2019, Chapecó. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 61-70. ISSN 2595-413X. DOI: https://doi.org/10.5753/erbd.2019.8479.