Repense, Recupere e Reranqueie: Um Pipeline de Recuperação e Reranqueamento para Classificação de Texto Multi-rótulo Extrema

Celso França; Berthier Ribeiro-Neto; Marcos André Gonçalves

doi:10.5753/sbbd_estendido.2023.233756

Celso França Universidade Federal de Minas Gerais (UFMG)
Berthier Ribeiro-Neto Universidade Federal de Minas Gerais (UFMG)
Marcos André Gonçalves Universidade Federal de Minas Gerais (UFMG)

DOI: https://doi.org/10.5753/sbbd_estendido.2023.233756

Resumo

A classificação de texto multi-rótulo extrema (XMTC) envolve a atribuição de rótulos relevantes a um texto a partir de um enorme espaço de rótulos. Abordando os desafios centrais da XMTC (volume, desbalanceamento e qualidade), propomos o xCoRetriev, um pipeline de dois estágios migrando de uma perspectiva de classificação para uma abordagem de recuperação de informações (IR). Tratamos o desafio de volume combinando de forma eficiente métodos de IR; enfrentamos o desafio do desbalanceamento capturando melhor a relação texto-rótulo e; aprimoramos a qualidade enriquecendo os nomes dos rótulos com pseudo-rótulos. Nossos resultados demonstram os pontos fortes do xCoRetriev quando comparado a linhas de base em termos de: (i) escalabilidade para grandes espaços de rótulos e quantidade de textos; (ii) eficácia diante do alto desbalanceamento, especialmente para predição de rótulos infrequentes – com ganhos de até 40% em MRR e NDCG –; e (iii) capacidade de lidar com textos e rótulos anotados de baixa qualidade.

Palavras-chave: classificação de texto, multi-rótulo

Referências

Garg, S. et al. (2021). Towards robustness to label noise in text classification via noise modeling. In CIKM, CIKM ’21, page 3024–3028, New York, NY, USA. ACM.

Ge, Y. et al. (2022). Explainable fairness in recommendation. In SIGIR, SIGIR ’22, page 681–691, New York, NY, USA. ACM.

Hou, R. et al. (2022). Contrastive-weighted self-supervised model for long-tailed data classification with vision transformer augmented. Mechanical Systems and Signal Processing, 177:109174.

Huang, X. and Wu, F. (2019). A novel topic-based framework for recommending long tail products. Computers & Industrial Engineering, 137:106063.

Jain, H. et al. (2016). Extreme multi-label loss functions for recommendation, tagging, ranking and other missing label applications. In KDD, page 935–944, New York, NY, USA. ACM.

Jiang, T. et al. (2021). Lightxml: Transformer with dynamic negative sampling for high-performance extreme multi-label text classification. In AAAI, volume 35, pages 7987–7994.

Wang, J., Chen, Z., Qin, Y., He, D., and Lin, F. (2023). Multi-aspect co-attentional collaborative filtering for extreme multi-label text classification. KBS, 260(2):1–11.

Wei, T., Mao, Z., Shi, J.-X., Li, Y.-F., and Zhang, M.-L. (2022). A survey on extreme multi-label learning. arXiv.

Xiong, J., Yu, L., Niu, X., and Leng, Y. (2023). Xrr: Extreme multi-label text classification with candidate retrieving and deep ranking. Information Sciences, 622:115–132.

You, R. et al. (2019). Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification. In Wallach, H. et al., editors, NIPS, volume 32. Curran Associates, Inc.

Yu, H.-F. et al. (2022). Pecos: Prediction for enormous and correlated output spaces. In SIGKDD, KDD ’22, page 4848–4849, New York, NY, USA. ACM.

Zeng, J. et al. (2023). Personalized dynamic attention multi-task learning model for document retrieval and query generation. ESA, 213:119026.