Análise de Técnicas de Similaridade Textual em Repositório Institucional de Produção Acadêmica
Resumo
Diante da dificuldade de encontrar trabalhos semelhantes ao tema desejado, este artigo analisa e compara técnicas de similaridade textual no Repositório Institucional do *****, focando em duas abordagens: similaridade por compressão de dados e por clusterização. Foram selecionados os algoritmos Damicore e K-Means para a análise. A coleta de dados foi realizada com um web crawler, seguida pela conversão de documentos PDF para texto. Os resultados indicam que o Damicore apresenta a melhor eficiência em uma abordagem qualitativa, contribuindo para a organização e acessibilidade dos dados no *****.
Palavras-chave:
similaridade textual, repositório institucional, compressão de dados, clusterização, Damicore
Referências
ADOMAVICIUS, G.; TUZHILIN, A. Context-Aware Recommender Systems. In: RICCI, F. et al. (Eds.). Recommender Systems Handbook. 2nd ed. New York: Springer, 2015. p. 217-253.
ARAÚJO DOS SANTOS, Morgana. Um estudo sobre a repercussão da eleição presidencial brasileira de 2022 no Twitter usando BERTopic. 2022. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Universidade Federal do Ceará, Fortaleza, 2022.
CILIBRASI, R.; VITANYI, P. Clustering by compression. IEEE Transactions on Information Theory, v. 51, n. 4, p. 1523-1545, 2005.
GIL, A. C. Métodos e técnicas de pesquisa social. 7. ed. São Paulo: Atlas, 2022.
GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, 2013.
GRACIANO, Helton Luiz dos Santos; RAMALHO, Rogério Aparecido Sá. SCRAPERCI: Um web scraper para coleta de dados científicos. Encontros Bibli, Florianópolis, v. 28, 2023.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall, 2024.
LIMA, Rui José da Rocha. Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados. 2018. Dissertação (Mestrado em Engenharia de Software) – Universidade de Trás-os-Montes e Alto Douro, Vila Real, 2018.
MEDEIROS CESAR, Bruno Kim. Estudo e extensão da metodologia Damicore para tarefas de classificação. 2016. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação (ICMC/USP), São Carlos – SP.
OLIVEIRA, Fernanda Robes de; KLEINA, Mariana; MARQUES, Marcos Augusto Mendes; GAYER, Jessika Alvares Coppi Arruda; TAMACHIRO, Thiago Shoji Obi. Clusterização de Clientes: um Modelo Utilizando Variáveis Categóricas e Numéricas. 2020.
SANCHES, Adriano; CARDOSO, Joao M. P.; DELBEM, Alexandre C. B. Identifying merge-beneficial software kernels for hardware implementation. In: 2011 International Conference on Reconfigurable Computing and FPGAs. 2011. DOI: 10.1109/ReConFig.2011.51.
SKINNER, Rafael de Araujo. Sistema de recomendação de textos acadêmicos através de clusterização com K-Means iterativo. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2019.
SU, X.; KHOSHGOFTAAR, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009.
ZAVAGLIA, C. Ambigüidade gerada pela homonímia: Revisitação teórica, linhas limítrofes com a polissemia e proposta de critérios distintivos. D.E.L.T.A., v. 19, n. 2, p. 237-266, 2003.
ARAÚJO DOS SANTOS, Morgana. Um estudo sobre a repercussão da eleição presidencial brasileira de 2022 no Twitter usando BERTopic. 2022. Trabalho de Conclusão de Curso (Graduação em Sistemas e Mídias Digitais) – Universidade Federal do Ceará, Fortaleza, 2022.
CILIBRASI, R.; VITANYI, P. Clustering by compression. IEEE Transactions on Information Theory, v. 51, n. 4, p. 1523-1545, 2005.
GIL, A. C. Métodos e técnicas de pesquisa social. 7. ed. São Paulo: Atlas, 2022.
GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, 2013.
GRACIANO, Helton Luiz dos Santos; RAMALHO, Rogério Aparecido Sá. SCRAPERCI: Um web scraper para coleta de dados científicos. Encontros Bibli, Florianópolis, v. 28, 2023.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd ed. Upper Saddle River: Prentice Hall, 2024.
LIMA, Rui José da Rocha. Extração e análise multidimensional de dados de atletismo a partir de dados não estruturados. 2018. Dissertação (Mestrado em Engenharia de Software) – Universidade de Trás-os-Montes e Alto Douro, Vila Real, 2018.
MEDEIROS CESAR, Bruno Kim. Estudo e extensão da metodologia Damicore para tarefas de classificação. 2016. Dissertação (Mestrado em Ciências – Ciências de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação (ICMC/USP), São Carlos – SP.
OLIVEIRA, Fernanda Robes de; KLEINA, Mariana; MARQUES, Marcos Augusto Mendes; GAYER, Jessika Alvares Coppi Arruda; TAMACHIRO, Thiago Shoji Obi. Clusterização de Clientes: um Modelo Utilizando Variáveis Categóricas e Numéricas. 2020.
SANCHES, Adriano; CARDOSO, Joao M. P.; DELBEM, Alexandre C. B. Identifying merge-beneficial software kernels for hardware implementation. In: 2011 International Conference on Reconfigurable Computing and FPGAs. 2011. DOI: 10.1109/ReConFig.2011.51.
SKINNER, Rafael de Araujo. Sistema de recomendação de textos acadêmicos através de clusterização com K-Means iterativo. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2019.
SU, X.; KHOSHGOFTAAR, T. M. A survey of collaborative filtering techniques. Advances in Artificial Intelligence, 2009.
ZAVAGLIA, C. Ambigüidade gerada pela homonímia: Revisitação teórica, linhas limítrofes com a polissemia e proposta de critérios distintivos. D.E.L.T.A., v. 19, n. 2, p. 237-266, 2003.
Publicado
05/12/2024
Como Citar
RODRIGUES FILHO, Edson Candido; FERREIRA FEITOSA, Rafael Divino.
Análise de Técnicas de Similaridade Textual em Repositório Institucional de Produção Acadêmica. In: ESCOLA REGIONAL DE INFORMÁTICA DE GOIÁS (ERI-GO), 12. , 2024, Ceres/GO.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 186-194.
DOI: https://doi.org/10.5753/erigo.2024.4833.