Avaliação de medidas de similaridade de texto para remoção de ambiguidade de nome de autores

Matheus Lemos; Daniel R. Figueiredo; Fábio H. Botler

doi:10.5753/wperformance.2022.223304

Matheus Lemos UFRJ
Daniel R. Figueiredo UFRJ
Fábio H. Botler UFRJ

DOI: https://doi.org/10.5753/wperformance.2022.223304

Resumo

A remoção de ambiguidade de nome consiste em identificar nomes diferentes que aparecem em uma base bibliográfica que remetem ao mesmo autor. Uma das primitivas para atacar este problema consiste de medidas de similaridade de string aplicada a pares de nomes dos autores. Este artigo avalia o desempenho de três medidas de similaridade de string (Levenshtein, LCS, TLSH) utilizando uma base de dados real com mais de 10 mil autores com mais de um nome e um universo de 7,3 milhões de nomes distintos. Uma metodologia baseada na ordenação das distâncias dos nomes é utilizada para comparar mais justamente as diferentes medidas de similaridade. Resultados claramente indicam que a LCS é superior as demais, mas ainda assim não identifica adequadamente os nomes sinônimos em uma grande fração de casos.

Palavras-chave: ambiguidade, similaridade, nome, coautor, bibliografia

Referências

Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2009). Introduction to algorithms. MIT press, 3rd edition.

Ferreira, A. A., Gonçalves, M. A., and Laender, A. H. (2012). A brief survey of automatic methods for author name disambiguation. SIGMOD Rec., 41(2):15–26.

Gomide, J., Kling, H., and Figueiredo, D. (2021). Consolidating identities in anonymous ego-centred collaboration networks. Journal of Complex Networks, 9(1).

Han, H., Giles, L., Zha, H., Li, C., and Tsioutsiouliklis, K. (2004). Two supervised learning approaches for name disambiguation in author citations. In ACM/IEEE Conference on Digital Libraries, pages 296–305.

Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, 10(8):707–710.

Ley, M. (2002). The dblp computer science bibliography: Evolution, research issues, perspectives. In International symposium on string processing and information retrieval, pages 1–10.

Oliver, J., Cheng, C., and Chen, Y. (2013). Tlsh – a locality sensitive hash. In 2013 Fourth Cybercrime and Trustworthy Computing Workshop, pages 7–13.

Sanyal, D. K., Bhowmick, P. K., and Das, P. P. (2021). A review of author name disambiguation techniques for the pubmed bibliographic database. Journal of Information Science, 47(2):227–254.

Yang, K.-H., Peng, H.-T., Jiang, J.-Y., Lee, H.-M., and Ho, J.-M. (2008). Author name disambiguation for citations using topic and web correlation. In International Conference on Theory and Practice of Digital Libraries, pages 185–196.

Zhou, G., Zhang, J., Su, J., Shen, D., and Tan, C. (2004). Recognizing names in biomedical texts: a machine learning approach. Bioinformatics, 20(7):1178–1190.