Improving distributed vector representation of short and noisy texts in the context of online classification

  • Renato Silva Universidade Federal de São Carlos
  • Johannes Lochter Universidade Estadual de Campinas / Centro Universitário Facens
  • Tiago Almeida Universidade Federal de São Carlos


A classificação de mensagens geradas pelos usuários em redes sociais e outras plataformas da Internet é desafiadora porque costumam ser curtas e repletas de gírias, abreviações e expressões idiomáticas, o que dificulta a extração dos atributos. Este trabalho propõe uma técnica de expansão de dados para aumentar o número de amostras com o objetivo de melhorar a qualidade do modelo de representação textual e elevar o desempenho na classificação. A técnica proposta é avaliada em um cenário de classificação online de sentimento em mensagens do Twitter. Os experimentos foram diligentemente realizados e uma análise estatística dos resultados indicou que a expansão de dados é efetiva na classificação online de mensagens de texto curtas e ruidosas.

Palavras-chave: Machine Learning, Text and Web Mining, Natural Language Processing


