Avaliação de técnicas de word embedding na tarefa de detecção de discurso de ódio

  • Claver Soto UFRJ / UFRRJ
  • Gustavo Nunes UFRJ
  • José Gomes UFRJ


Este artigo apresenta os resultados obtidos da exploração dos vetores de características gerados de técnicas de word embedding (especificamente word2vec e wang2vec) a partir de um banco de textos na ordem do bilhão de tokens em comparação com os gerados a partir de bancos pequenos na ordem de dezenas de milhar, na aplicação de detecção de discurso de ódio na língua portuguesa. Dando continuidade às pesquisas desenvolvidas por outros autores no Brasil e em Portugal, e aproveitando os recursos e sugestões por eles disponibilizados, conseguiu-se uma melhora de até 2,5% na taxa de acerto na classificação, em relação ao estado da arte em língua portuguesa.


