Ensemble of Term Classification (ETC): Classifying Word Occurrences

  • Vítor Mangaravite Universidade Federal de Minas Gerais (UFMG)
  • Marcos André Gonçalves Universidade Federal de Minas Gerais (UFMG)

Resumo


A classificação automática de texto no Processamento de Linguagem Natural (PLN) é a tarefa de prever classes para documentos textuais. Tradicionalmente, existem duas abordagens predominantes: modelos baseados em saco de palavras e modelos mais recentes baseados em sequência. Enquanto os modelos baseados em saco de palavras representam documentos considerando apenas a ocorrência de termos individuais, os modelos baseados em sequência levam em conta a ordem dos termos dentro do texto, até um comprimento máximo estabelecido. Embora os modelos de sequência baseados em aprendizado profundo tenham dominado o campo, abordagens baseadas em saco de palavras continuam a produzir resultados competitivos. No entanto, os métodos existentes geralmente exigem a construção de uma representação do documento e, em seguida, a previsão de sua classe, sem classificar especificamente as ocorrências individuais de termos dentro do conjunto de palavras. Essa lacuna na pesquisa serve como motivação para a tese proposta, que apresenta uma nova perspectiva para a classificação automática de texto. O objetivo principal é classificar cada ocorrência de termo dentro do saco de palavras e, em seguida, estimar a classe do documento, eliminando assim a necessidade de uma única representação oculta do documento. Como demonstrado pelos resultados obtidos, a abordagem proposta oferece maior interpretabilidade e eficiência na classificação de texto, ao abordar as limitações dos métodos existentes.

Palavras-chave: classificação de texto, processamento de linguagem natural, saco de palavras

Referências

Anelli, V. W., Biancofiore, G. M., De Bellis, A., Di Noia, T., and Di Sciascio, E. (2022). Interpretability of bert latent space through knowledge graphs. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pages 3806–3810.

Cunha, W., Mangaravite, V., Gomes, C., Canuto, S., Resende, E., Nascimento, C., Viegas, F., França, C., Martins, W. S., Almeida, J. M., et al. (2021). On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study. Information Processing & Management, 58(3):102481.

Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., and Soricut, R. (2019). Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.

Sanh, V., Debut, L., Chaumond, J., and Wolf, T. (2019). Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R. R., and Le, Q. V. (2019). Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32.
Publicado
25/09/2023
MANGARAVITE, Vítor; GONÇALVES, Marcos André. Ensemble of Term Classification (ETC): Classifying Word Occurrences. In: WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 38. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 160-166. DOI: https://doi.org/10.5753/sbbd_estendido.2023.233758.