Classificação de opinião no Twitter em português utilizando o Multilingual Universal Sentence Encoder para apoiar pesquisas sobre filter bubble

Jônatas Castro dos Santos; Sean Wolfgand Matsui Siqueira

doi:10.5753/sbsc.2019.7809

Jônatas Castro dos Santos UNIRIO
Sean Wolfgand Matsui Siqueira UNIRIO

DOI: https://doi.org/10.5753/sbsc.2019.7809

Resumo

Pesquisas sobre filter bubbles necessitam de mecanismos para capturar e classificar a polaridade de opinião de documentos em ambientes crowdsourced. Apresentamos um modelo preliminar baseado em aprendizado de máquina para classificar a opinião de tweets em português sobre o tema da Reforma de Previdência no contexto político brasileiro. Nossa abordagem utiliza o Multilingual Universal Sentence Encoder for Semantic Retrieval, um modelo pré-treinado recém-lançado por pesquisadores do Google para gerar representações vetoriais semanticamente ricas. Treinamos e classificamos nosso dataset em uma rede neural profunda feedfoward. Nosso modelo preliminar apresentou uma acurácia média de 82%. Esta tarefa é parte de um trabalho em andamento que visa apoiar a realização de pesquisas sobre filter bubbles.

Referências

Bozdag, E., & van den Hoven, J. (2015). Breaking the filter bubble: democracy and design. Ethics and Information Technology, 17(4), 249–265. https://doi.org/10.1007/s10676-015-9380-y

Cer, D., Yang, Y., Kong, S., Hua, N., Limtiaco, N., John, R. St., … Kurzweil, R. (2018). Universal Sentence Encoder. Retrieved from http://arxiv.org/abs/1803.11175

Dillahunt, T. R., Brooks, C. A., & Gulati, S. (2015). Detecting and Visualizing Filter Bubbles in Google and Bing, 1851–1856. https://doi.org/10.1145/2702613.2732850

Época Negócios. (2019). Reforma da Previdência cria “guerra” de hashtags no Twitter. Retrieved August 1, 2019, from https://epocanegocios.globo.com/Brasil/noticia/2019/03/reforma-da-previdencia-cria-guerra-de-hashtags-no-twitter.html

Hendler, J., Shadbolt, N., Hall, W., Berners-Lee, T., & Weitzner, D. (2008). Web science: an interdisciplinary approach to understanding the web. Communications of the ACM, 51(7), 60. https://doi.org/10.1145/1364782.1364798

IG. (2019). Em dia de atos contra a reforma, nova Previdência domina as redes. Retrieved from https://economia.ig.com.br/2019-03-22/manifestacoes-previdencia.html

Kulshrestha, J., Eslami, M., Messias, J., Zafar, M. B., Ghosh, S., Gummadi, K. P., & Karahalios, K. (2019). Search bias quantification: investigating political bias in social media and web search. Information Retrieval Journal, 22(1–2), 188–227. https://doi.org/10.1007/s10791-018-9341-2

Le, H., Maragh, R., Ekdale, B., High, A., Havens, T., & Shafiq, Z. (2019). Measuring Political Personalization of Google News Search, 2957–2963. https://doi.org/10.1145/3308558.3313682

Ming, F., Wong, F., Tan, C. W., Sen, S., & Chiang, M. (2016). Quantifying Political Leaning from Tweets, Retweets, and Retweeters. IEEE Transactions on Knowledge and Data Engineering, 28(8), 2158–2172. https://doi.org/10.1109/TKDE.2016.2553667

Nechushtai, E., & Lewis, S. C. (2019). What kind of news gatekeepers do we want machines to be? Filter bubbles, fragmentation, and the normative dimensions of algorithmic recommendations. Computers in Human Behavior, 90(June 2018), 298–307. https://doi.org/10.1016/j.chb.2018.07.043

Pariser, E. (2011). The Filter Bubble: What The Internet Is Hiding From You.

Saligrama, A. (2019). KnowBias: A Novel AI Method to Detect Polarity in Online Content. Retrieved from http://arxiv.org/abs/1905.00724

Tran, G., & Herder, E. (2015). Detecting Filter Bubbles in Ongoing News Stories. Extended Proc. UMAP 2015. Retrieved from http://www.l3s.de/~herder/research/papers/2015/umap2015-eumssi-lbr.pdf

Yang, Y., Cer, D., Ahmad, A., Guo, M., Law, J., Constant, N., … Kurzweil, R. (2019). Multilingual Universal Sentence Encoder for Semantic Retrieval. Retrieved from http://arxiv.org/abs/1907.04307

Yang, Y., Cer, D., Yuan, S., Sung, Y., Strope, B., & Kurzweil, R. (2018). Learning Cross-Lingual Sentence Representations via a Multi-task Dual-Encoder Model. In 4th Workshop on Representation Learning for NLP.