Avaliação da Limiarização na Geração de Redes Textuais

João Pedro F. O. Nascimento; Anderson C. S. Oliveira; Lia H. M. Morita

doi:10.5753/eri-mt.2023.236300

João Pedro F. O. Nascimento UFMT
Anderson C. S. Oliveira UFMT
Lia H. M. Morita UFMT

DOI: https://doi.org/10.5753/eri-mt.2023.236300

Resumo

Dados textuais podem ser modelados em grafos utilizando matrizes de similaridade. No entanto, essas matrizes densas exigem esparsificação, e a limiarização é frequentemente usada para este propósito. Neste estudo, simulações foram realizadas para avaliar a influência da escolha do limiar na qualidade das comunidades identificadas pelo algoritmo de Leiden, com a Medida V como métrica. Os resultados mostraram aumento da Medida V conforme variação do limiar até atingir uma assíntota. Em certos cenários, observou-se uma inflexão. Foi identificado que textos de baixa diversidade léxica exibem comportamento assintótico, sugerindo uma associação com o padrão observado.

Palavras-chave: limiarização, redes textuais, algoritmos de leiden, detecção de comunidades, medida v

Referências

Bapat, R. B. (2014). Graphs and Matrices. Springer-Verlag, London, 2nd edition.

Jurafsky, D. and Martin, J. H. (2009). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Pearson Prentice Hall.

Kojaku, S. and Masuda, N. (2019). Constructing networks by filtering correlation matrices: a null model approach. Proc. R. Soc. A, 475:20190578.

Liu, X., Jiang, S., Sun, M., and Chi, X. (2020). Examining patterns of information exchange and social support in a web-based health community: Exponential random graph models. J Med Internet Res, 22(9):e18062.

Mccarthy, P. and Jarvis, S. (2007). Vocd: A theoretical and empirical evaluation. language testing, 24, 459-488. Language Testing LANG TEST, 24:459–488.

OpenAI (2023). Manual da API de Embeddings da OpenAI. OpenAI Incorporated.

Python Core Team (2019). Python: A dynamic, open source programming language. Python Software Foundation.

R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria.

Rosenberg, A. and Hirschberg, J. (2007). V-measure: A conditional entropy-based external cluster evaluation measure. In Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning (EMNLP-CoNLL), pages 410–420.

Traag, V. A., Waltman, L., and van Eck, N. J. (2019). From louvain to leiden: guaranteeing well-connected communities. Scientific reports, 9(1):5233.