On the Role of Semantic Word Clusters — CluWords — in Natural Language Processing (NLP)

  • Felipe Viegas Universidade Federal de Minas Gerais (UFMG)
  • Leonardo Rocha Universidade Federal de São Jõao del-Rei (UFSJ)
  • Marcos André Gonçalves Universidade Federal de Minas Gerais (UFMG)

Resumo


Esta tese de doutorado tem como foco a proposta, concepção e avaliação de uma nova representação textual de documentos que combina o “melhor de dois mundos”: a informação frequentista, eficiente e eficaz (representações TFIDF), com informações semânticas derivadas de representações de word embeddings. Especificamente, nossa proposta — denominada CluWords — agrupa palavras relacionadas sintática e semanticamente em clusters e aplica esquemas de filtragem e ponderação específicos para o domínio e orientados à aplicação, visando construir representações documentais poderosas e ajustadas às necessidades específicas de cada tarefa. O conceito inovador de CluWords foi aplicado em quatro aplicações de Processamento de Linguagem Natural (PLN): modelagem de tópicos, modelagem hierárquica de tópicos, construção de léxicos de sentimentos e análise de sentimentos. As contribuições principais desta dissertação incluem: (i) a introdução de uma nova representação de dados; (ii) o desenvolvimento de componentes do CluWords capazes de aprimorar a eficácia em aplicações de Modelagem de Tópicos, Modelagem Hierárquica de Tópicos e Análise de Sentimentos; (iii) a proposta de duas novas métricas para avaliar a qualidade tópica das estruturas hierárquicas. Nossos extensos experimentos demonstram que CluWords alcança o estado da arte atual em modelagem de tópicos e modelagem hierárquica de tópicos. No contexto da análise de sentimentos, os resultados mostram que a filtragem e ponderação proporcionadas pelo CluWords podem mitigar o ruído semântico, superando até mesmo arquiteturas poderosas baseadas em Transformadores. Os resultados foram publicados em algumas das principais conferências e revistas científicas da área, conforme detalhado neste documento. Este trabalho foi apoiado por dois Google Research Awards.
Palavras-chave: SemanticWord Clusters, NLP

Referências

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Griffiths, T. L., Jordan, M. I., Tenenbaum, J. B., and Blei, D. M. (2004). Hierarchical topic models and the nested chinese restaurant process. In Advances in neural information processing systems, pages 17–24.

Grootendorst, M. (2022). Bertopic: Neural topic modeling with a class-based tf-idf procedure. arXiv preprint arXiv:2203.05794.

Hamilton, W. L., Clark, K., Leskovec, J., and Jurafsky, D. (2016). Inducing domain-specific sentiment lexicons from unlabeled corpora. CoRR, abs/1606.02820.

Hutto, C. J. and Gilbert, E. (2014). Vader: A parsimonious rule-based model for sentiment analysis of social media text. In Eighth international AAAI conference on weblogs and social media.

Li, C., Duan, Y., Wang, H., Zhang, Z., Sun, A., and Ma, Z. (2017). Enhancing topic modeling for short texts with auxiliary word embeddings. ACM TOIS.

Sachan, D. S., Zaheer, M., and Salakhutdinov, R. (2019). Revisiting lstm networks for semi-supervised text classification via mixed objective function. Proceedings of the AAAI Conference on Artificial Intelligence, 33(01):6940–6948.

Shi, T., Kang, K., Choo, J., and Reddy, C. K. (2018). Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations. In WWW ’18, pages 1105–1114.

Yang, J., Jin, H., Tang, R., Han, X., Feng, Q., Jiang, H., Zhong, S., Yin, B., and Hu, X. (2024). Harnessing the power of llms in practice: A survey on chatgpt and beyond. ACM Trans. Knowl. Discov. Data, 18(6).
Publicado
14/10/2024
VIEGAS, Felipe; ROCHA, Leonardo; GONÇALVES, Marcos André. On the Role of Semantic Word Clusters — CluWords — in Natural Language Processing (NLP). In: CONCURSO DE TESES E DISSERTAÇÕES (CTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 176-182. DOI: https://doi.org/10.5753/sbbd_estendido.2024.240587.