Utilizando Pistas Linguística para Detectar Conteúdo Enganoso em Português
Resumo
O maior acesso a celulares conectados à internet e a popularização das redes sociais levaram a um aumento significativo na geração e no compartilhamento de notícias falsas. Estudos disponíveis na literatura, baseados em pistas linguísticas, sugerem que os autores de conteúdo enganoso exibem comportamento verbal e não verbal diferente dos autores de conteúdo verdadeiro. Desta forma, neste artigo apresentamos a ferramenta LC-Tool, a qual extrai 29 pistas linguísticas de textos. Ainda, testamos a ferramenta em três corpus sobre conteúdo enganoso disponíveis na Internet. Por fim, percebemos que algumas pistas linguísticas podem ser extensíveis para o idioma português (por exemplo: média do número de verbos e média de pausalidade) e que em outras pistas linguísticas precisam ser validadas, pois são afetadas pelo contexto e domínio das mensagens.
Referências
Fuller, C., Biros, D., Twitchell, D., Burgoon, J., and Adkins, M. (2006). An analysis of text-based deception detection tools. volume 6, page 418.
Litvinova, O., Seredin, P., Litvinova, T., and Lyell, J. (2017). Deception detection in Russian texts. In Proceedings of the Student Research Workshop at the 15th Conference of the European Chapter of the Association for Computational Linguistics, pages 43–52, Valencia, Spain. Association for Computational Linguistics.
Zhou, L., Burgoon, J., and Douglas, T. (2004). A comparison of classification methods for predicting deception in computer-mediated communication. 20(4):139–165.
Zhou, L., Burgoon, J., Twitchel, D., Quin, T., and Jay, N. (2003). An exploratory study into deception detection in text-based computer-mediated communication. 20(4):1–10.
Zhou, L. and Sung, Y.-w. (2008). Cues to deception in online chinese groups. In Proceedings of the 41st Annual Hawaii International Conference on System Sciences (HICSS 2008), pages 146–153.