Aprendizado de Máquina não Supervisionado Baseado em Redes Heterogêneas para Agrupamento de Textos

  • José Santos Universidade Federal do Mato Grosso do Sul
  • Rafael Rossi Universidade Federal do Mato Grosso do Sul

Resumo


As representações em redes permitem modelar diferentes tipos de relações entre textos, são capazes de capturar padrões dificilmente capturados pelo modelo espaço vetorial, e algoritmos de agrupamento em redes, como a propagação de rótulos, possuem complexidade linear. Porém, o agrupamento em redes não tem sido explorado (i) especificamente no agrupamento de textos; e (ii) com as diferentes possibilidades de representar textos em redes. Com isso, o objetivo deste artigo é a exploração e análise de técnicas de agrupamento aplicadas a diferentes tipos de representações em redes. Foram realizados experimentos utilizando 30 coleções de diferentes domínios, representadas em formato bag-of-words, redes de similaridade do tipo k-Nearest Neighbors e redes bipartidas. A abordagem de propagação de rótulos em redes de similaridade obteve os melhores resultados para a maioria das medidas de avaliação e para a maioria das coleções de textos. O algoritmo de propagação de rótulos demonstrou-se promissor, principalmente quando aplicado a redes de similaridade.

Palavras-chave: agrupamento de textos, representações em redes, propagação de rótulos.

Referências

Aggarwal, C. C. (2018). Machine Learning for Text. Springer Publishing Company, Incorporated, 1st edition.

Angelova, R. and Weikum, G. (2006). Graph-based text classification: learn from your neighbors. In Proc. Conf. Special Interest Group on Information Retrieval, pages 485– 492. ACM.

Breve, F., Zhao, L., Quiles, M., Pedrycz, W., and Liu, J. (2011). Particle competition and cooperation in networks for semi-supervised learning. IEEE Transactions on Knowledge and Data Engineering, 24(9):1686–1698.

Cao, J., Wang, S., Wen, D., Peng, Z., Philip, S. Y., and Wang, F.-y. (2020). Mutual clustering on comparative texts via heterogeneous information networks. Knowledge and Information Systems, 62(1):175–202. de Sousa, C. A. R., Rezende, S. O., and Batista, G. E. A. P. A. (2013). Influence of graph construction on semi-supervised learning. In Proc. Eur. Conf. Machine Learning and Knowledge Discovery in Databases, pages 160–175.

Golo, M. P. S. and Rossi, R. G. (2019). An extensive empirical evaluation of preprocessing techniques and supervised one class learning algorithms for text classification (in press). In Proceeding of the National Meeting on Artificial and Computational Intelligence (ENIAC), pages 1–12.

Ienco, D., Bifet, A., Žliobaitė, I., and Pfahringer, B. (2013). Clustering based active learning for evolving data streams. In Int. Conf. Discovery Science, pages 79–93. Springer.

Khennak, I., Drias, H., Kechid, A., and Moulai, H. (2019). Clustering algorithms for query expansion based information retrieval. In Int. Conf Computational Collective Intelligence, pages 261–272. Springer.

Marcacini, R. M., Hruschka, E. R., and Rezende, S. O. (2012). On the use of consensus clustering for incremental learning of topic hierarchies. In Lecture Notes in Computer Science, Alemanha. Springer Verlag.

Mei, J.-P., Lv, H., Yang, L., and Li, Y. (2019). Clustering for heterogeneous information networks with extended star-structure. Data Mining and Knowledge Discovery, 33(4):1059–1087.

Mihalcea, R. and Radev, D. (2011). Graph-based natural language processing and information retrieval. Cambridge University Press.

Newman, M. (2018). Networks. OUP Oxford.

Rossi, R. G., de Andrade Lopes, A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts (in press). Information Processing & Management.

Rossi, R. G., Marcacini, R. M., and Rezende, S. O. (2013). Benchmarking text collections for classification and clustering tasks. Technical Report 395, Institute of Mathematics and Computer Sciences, University of Sao Paulo.

Rossi, R. G., Rezende, S. O., and de Andrade Lopes, A. (2015). Term network approach for transductive classification. In Int. Conf. Intelligent Text Processing and Computational Linguistics, pages 497–515.

Šubelj, L. (2019). Label propagation for clustering. Advances in Network Clustering and Blockmodeling, pages 121–150.

Sun, Y., Han, J., Zhao, P., Yin, Z., Cheng, H., and Wu, T. (2009). Rankclus: integrating clustering with ranking for heterogeneous information network analysis. In Proc. Int. Conf. Extending Database Technology: Advances in Database Technology, pages 565– 576. ACM.

Tan, P., Steinbach, M., Karpatne, A., and Kumar, V. (2019). Introduction to Data Mining. What’s New in Computer Science Series. Pearson.
Publicado
20/10/2020
SANTOS, José; ROSSI, Rafael. Aprendizado de Máquina não Supervisionado Baseado em Redes Heterogêneas para Agrupamento de Textos. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 17. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 35-46. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2020.12115.