Avaliação de técnicas de word embedding na tarefa de detecção de discurso de ódio
Resumo
Este artigo apresenta os resultados obtidos da exploração dos vetores de características gerados de técnicas de word embedding (especificamente word2vec e wang2vec) a partir de um banco de textos na ordem do bilhão de tokens em comparação com os gerados a partir de bancos pequenos na ordem de dezenas de milhar, na aplicação de detecção de discurso de ódio na língua portuguesa. Dando continuidade às pesquisas desenvolvidas por outros autores no Brasil e em Portugal, e aproveitando os recursos e sugestões por eles disponibilizados, conseguiu-se uma melhora de até 2,5% na taxa de acerto na classificação, em relação ao estado da arte em língua portuguesa.
Referências
Spertus Ellen (1997). “Smokey: Automatic Recognition of Hostile Messages”. In: IAAI-97 Proceedings. https://www.aaai.org/Papers/IAAI/1997/IAAI97-209.pdf.
Bengio Y., Ducharme R., Vincent P. and Jauvin C. (2003). “A Neural Probabilistic Language Model”. In: Journal of Machine Learning Research 3.
Mikolov T., Chen K., Corrado G. and Dean J. (2013). “Efficient Estimation of Word Representation in Vector Space”. arXiv:1301.3781v3.
Kim Yoon. (2014). “Convolutional Neural Networks for Sentence Classification”. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar.
Ling W., Dyer C., Black A. and Trancoso I. (2015). “Two/Too Simple Adaptations of Word2Vec for Syntax Problems”, In: Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", Denver, Colorado.
Zhang Y., Wallace B. (2016). “A Sensitivity Analysis of (and Practitiones’ Guide to) Convolutional Neural Networks for sentence Classification”. arXiv:1510.03820.
Pennington J., Socher R. and Manning C. (2014). “GloVe: Global Vectors for Word Representation.” In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar .
Petrolito R. and Dell’Orletta F. (2018). “Word Embeddings in Sentiment Analysis“. In Proceedings of 5th Italian Conference on Computational Linguistics. Turin, Italy.
Joulin A., Grave E., Bojanowski P. and Mikolov T. (2016). “Bag of Tricks for Efficient Text Classification”. arXiv:1607.01759v3.
Rodrigues J., Branco A., Neale S. and Silva J. (2016). “LX-DSemVectors: Distributional Semantics Models for Portuguese”. In: Computational Processing of the Portuguese Language: 12th International Conference, PROPOR 2016, Tomar, Portugal.
Hartmann N., Fonseca E., Shulby C., Treviso M., Rodrigues J. and Aluísio S. (2017). “Portuguese Word Embeddings: Evaluatin on Word Analogies and Natural Language Tasks”. In: Proceedings of Symposium in Information and Human Language Technology, Uberlândia, MG, Brazil. de Pelle R. and Moreira V. (2017). “Offensive Comments in the Brazilian Web: a dataset and baseline results”, In: Proceedings of Brazilian Workshop on Social Network Analysis and Mining, São Paulo, SP, Brazil.
Lima C. e Bianco G. (2019). “Extração de características para identificação de discurso de ódio em documentos”, Em: XV Escola Regional de Informática de Banco de Dados, pages 70-78, Chapecó, SC, Brazil.
Fortuna P. (2017). “Automatic Detection of HateSpeech in Text: An Overview of the Topic and Dataset Annotation with Hierarchical Classes”. Dissertação de mestrado Integrado em Eng. Informática e Computação. Faculdade de Engenharia da Universidade do Porto.
Silva S., e Serapião A. (2018). “Detecção de discurso de ódio em português usando CNN combinada a vetores de palavras”, In: Proceedings of KDMILE 2018, Symposium on Knowledge Discovery, Mining and Learning, São Paulo, SP, Brazil.
Song Y., Shi S., Li J., Zhang H. (2018). “Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings”. In: Proceedings of NAACL-HLT 2018, New Orleans, Louisiana.
Angiani G., Ferrari L., Fontanini T., Fornacciari P., Iotti E., Magliani F., and Manicardi S. (2016). “A Comparison between Preprocessing Techniques for Sentiment Analysis in Twitter”. In: Proceedings of the 2nd International Workshop on Knowledge Discovery on the WEB, Cagliari, Italy.