Analysis of Text Similarity Techniques in an Institutional Repository of Academic Production

  • Edson Candido Rodrigues Filho IFGoiano
  • Rafael Divino Ferreira Feitosa IFGoiano

Abstract


Facing the difficulty of finding works similar to the desired theme, this paper analyzes and compares text similarity techniques in the Institutional Repository of *****, focusing on two approaches: data compression similarity and clustering. The algorithms Damicore and K-Means were selected for the analysis. Data collection was performed using a web crawler, followed by the conversion of PDF documents to text. The results indicate that Damicore demonstrates superior efficiency in a qualitative approach, contributing to the organization and accessibility of data in the *****.
Keywords: text similarity, institutional repository, data compression, clustering, Damicore

References

ADOMAVICIUS, G.; TUZHILIN, A. Context-Aware Recommender Systems. In: RICCI, F. et al. (Eds.). Recommender Systems Handbook. 2nd ed. New York: Springer, 2015. p. 217-253.

ARAÚJO DOS SANTOS, Morgana. Um estudo sobre a repercussão da eleição presidencial brasileira de 2022 no Twitter usando BERTopic. 2022. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Universidade Federal do Ceará, Fortaleza, 2022.

CILIBRASI, R.; VITANYI, P. Clustering by compression. IEEE Transactions on Information Theory, v. 51, n. 4, p. 1523-1545, 2005.

GIL, A. C. Métodos e técnicas de pesquisa social. 7. ed. São Paulo: Atlas, 2022.

GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, 2013.

GRACIANO, Helton Luiz dos Santos; RAMALHO, Rogério Aparecido Sá. SCRAPERCI: Um web scraper para coleta de dados científicos. Encontros Bibli, Florianópolis, v. 28, 2023.

JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall, 2024.

LIMA, Rui José da Rocha. Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados. 2018. Dissertação (Mestrado em Engenharia de Software) – Universidade de Trás-os-Montes e Alto Douro, Vila Real, 2018.

MEDEIROS CESAR, Bruno Kim. Estudo e extensão da metodologia Damicore para tarefas de classificação. 2016. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação (ICMC/USP), São Carlos – SP.

OLIVEIRA, Fernanda Robes de; KLEINA, Mariana; MARQUES, Marcos Augusto Mendes; GAYER, Jessika Alvares Coppi Arruda; TAMACHIRO, Thiago Shoji Obi. Clusterização de Clientes: um Modelo Utilizando Variáveis Categóricas e Numéricas. 2020.

SANCHES, Adriano; CARDOSO, Joao M. P.; DELBEM, Alexandre C. B. Identifying merge-beneficial software kernels for hardware implementation. In: 2011 International Conference on Reconfigurable Computing and FPGAs. 2011. DOI: 10.1109/ReConFig.2011.51.

SKINNER, Rafael de Araujo. Sistema de recomendação de textos acadêmicos através de clusterização com K-Means iterativo. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2019.

SU, X.; KHOSHGOFTAAR, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009.

ZAVAGLIA, C. Ambigüidade gerada pela homonímia: Revisitação teórica, linhas limítrofes com a polissemia e proposta de critérios distintivos. D.E.L.T.A., v. 19, n. 2, p. 237-266, 2003.
Published
2024-12-05
RODRIGUES FILHO, Edson Candido; FERREIRA FEITOSA, Rafael Divino. Analysis of Text Similarity Techniques in an Institutional Repository of Academic Production. In: REGIONAL SCHOOL ON INFORMATICS OF GOIÁS (ERI-GO), 12. , 2024, Ceres/GO. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 186-194. DOI: https://doi.org/10.5753/erigo.2024.4833.