Analysis of Text Similarity Techniques in an Institutional Repository of Academic Production
Abstract
Facing the difficulty of finding works similar to the desired theme, this paper analyzes and compares text similarity techniques in the Institutional Repository of *****, focusing on two approaches: data compression similarity and clustering. The algorithms Damicore and K-Means were selected for the analysis. Data collection was performed using a web crawler, followed by the conversion of PDF documents to text. The results indicate that Damicore demonstrates superior efficiency in a qualitative approach, contributing to the organization and accessibility of data in the *****.
Keywords:
text similarity, institutional repository, data compression, clustering, Damicore
References
ADOMAVICIUS, G.; TUZHILIN, A. Context-Aware Recommender Systems. In: RICCI, F. et al. (Eds.). Recommender Systems Handbook. 2nd ed. New York: Springer, 2015. p. 217-253.
ARAÚJO DOS SANTOS, Morgana. Um estudo sobre a repercussão da eleição presidencial brasileira de 2022 no Twitter usando BERTopic. 2022. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Universidade Federal do Ceará, Fortaleza, 2022.
CILIBRASI, R.; VITANYI, P. Clustering by compression. IEEE Transactions on Information Theory, v. 51, n. 4, p. 1523-1545, 2005.
GIL, A. C. Métodos e técnicas de pesquisa social. 7. ed. São Paulo: Atlas, 2022.
GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, 2013.
GRACIANO, Helton Luiz dos Santos; RAMALHO, Rogério Aparecido Sá. SCRAPERCI: Um web scraper para coleta de dados científicos. Encontros Bibli, Florianópolis, v. 28, 2023.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall, 2024.
LIMA, Rui José da Rocha. Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados. 2018. Dissertação (Mestrado em Engenharia de Software) – Universidade de Trás-os-Montes e Alto Douro, Vila Real, 2018.
MEDEIROS CESAR, Bruno Kim. Estudo e extensão da metodologia Damicore para tarefas de classificação. 2016. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação (ICMC/USP), São Carlos – SP.
OLIVEIRA, Fernanda Robes de; KLEINA, Mariana; MARQUES, Marcos Augusto Mendes; GAYER, Jessika Alvares Coppi Arruda; TAMACHIRO, Thiago Shoji Obi. Clusterização de Clientes: um Modelo Utilizando Variáveis Categóricas e Numéricas. 2020.
SANCHES, Adriano; CARDOSO, Joao M. P.; DELBEM, Alexandre C. B. Identifying merge-beneficial software kernels for hardware implementation. In: 2011 International Conference on Reconfigurable Computing and FPGAs. 2011. DOI: 10.1109/ReConFig.2011.51.
SKINNER, Rafael de Araujo. Sistema de recomendação de textos acadêmicos através de clusterização com K-Means iterativo. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2019.
SU, X.; KHOSHGOFTAAR, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009.
ZAVAGLIA, C. Ambigüidade gerada pela homonímia: Revisitação teórica, linhas limítrofes com a polissemia e proposta de critérios distintivos. D.E.L.T.A., v. 19, n. 2, p. 237-266, 2003.
ARAÚJO DOS SANTOS, Morgana. Um estudo sobre a repercussão da eleição presidencial brasileira de 2022 no Twitter usando BERTopic. 2022. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Universidade Federal do Ceará, Fortaleza, 2022.
CILIBRASI, R.; VITANYI, P. Clustering by compression. IEEE Transactions on Information Theory, v. 51, n. 4, p. 1523-1545, 2005.
GIL, A. C. Métodos e técnicas de pesquisa social. 7. ed. São Paulo: Atlas, 2022.
GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, 2013.
GRACIANO, Helton Luiz dos Santos; RAMALHO, Rogério Aparecido Sá. SCRAPERCI: Um web scraper para coleta de dados científicos. Encontros Bibli, Florianópolis, v. 28, 2023.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall, 2024.
LIMA, Rui José da Rocha. Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados. 2018. Dissertação (Mestrado em Engenharia de Software) – Universidade de Trás-os-Montes e Alto Douro, Vila Real, 2018.
MEDEIROS CESAR, Bruno Kim. Estudo e extensão da metodologia Damicore para tarefas de classificação. 2016. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação (ICMC/USP), São Carlos – SP.
OLIVEIRA, Fernanda Robes de; KLEINA, Mariana; MARQUES, Marcos Augusto Mendes; GAYER, Jessika Alvares Coppi Arruda; TAMACHIRO, Thiago Shoji Obi. Clusterização de Clientes: um Modelo Utilizando Variáveis Categóricas e Numéricas. 2020.
SANCHES, Adriano; CARDOSO, Joao M. P.; DELBEM, Alexandre C. B. Identifying merge-beneficial software kernels for hardware implementation. In: 2011 International Conference on Reconfigurable Computing and FPGAs. 2011. DOI: 10.1109/ReConFig.2011.51.
SKINNER, Rafael de Araujo. Sistema de recomendação de textos acadêmicos através de clusterização com K-Means iterativo. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2019.
SU, X.; KHOSHGOFTAAR, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009.
ZAVAGLIA, C. Ambigüidade gerada pela homonímia: Revisitação teórica, linhas limítrofes com a polissemia e proposta de critérios distintivos. D.E.L.T.A., v. 19, n. 2, p. 237-266, 2003.
Published
2024-12-05
How to Cite
RODRIGUES FILHO, Edson Candido; FERREIRA FEITOSA, Rafael Divino.
Analysis of Text Similarity Techniques in an Institutional Repository of Academic Production. In: REGIONAL SCHOOL ON INFORMATICS OF GOIÁS (ERI-GO), 12. , 2024, Ceres/GO.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 186-194.
DOI: https://doi.org/10.5753/erigo.2024.4833.
