Detecção de Autores Duplicados Utilizando Estrutura de Comunidades em Redes de Cooperação Científica

  • Breno Júnio V. da Silva USP
  • Robson Motta USP
  • Alneu de Andrade Lopes USP

Resumo


Nas coleções de artigos científicos é frequente encontrar nomes diferentes de citação de um mesmo autor. Para muitas aplicações, estes registros duplicados devem ser identificados. Esta é uma instância do problema conhecido como a identificação de duplicados, para o qual bons resultados não foram alcançados ainda. Este estudo investigou a utilização de redes de cooperação científica e técnicas de detecção da comunidade para lidar com o problema de identificação de duplicados. Os resultados indicam que essa estratégia não só melhora a precisão da identificação de duplicatas, mas também reduz o custo computacional associado a esta tarefa quando comparado com as abordagens em que um registro é comparado com todos os outros.

Referências

Bhattacharya, I. and Getoor, L. (2004). Iterative record linkage for cleaning and integration. In DMKD ’04: Proceedings of the 9th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pages 11 – 18, New York, NY, USA. ACM.

Bhattacharya, I. and Getoor, L. (2007). Collective entity resolution in relational data. ACM Trans. Knowl. Discov. Data, 1:5.

Bilenko, M. and Mooney, R. J. (2003). Adaptive duplicate detection using learnable string similarity measures. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 39–48, New York, NY, USA. ACM.

Clauset, A., Newman, M., and Moore, C. (2004). Finding community structure in very large networks. Physical Review E, 70(1):066111.

de Carvalho, M. G., Gonçalves, M. A., Laender, A. H. F., and da Silva, A. S. (2006). Learning to deduplicate. In JCDL ’06: Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, pages 41–50, New York, NY, USA. ACM.

Dong, X., Halevy, A., and Madhavan (2005). Reference reconciliation in complex information spaces. In SIGMOD ’05: Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pages 85–96, New York, NY, US. ACM.

Elmacioglu, E., Kan, M.-Y., Lee, D., and Zhang, Y. (2007). Web based linkage. In WIDM ’07: Proceedings of the 9th annual ACM international workshop on Web information and data management, pages 121–128, New York, NY, USA. ACM.

Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). The kdd process for extracting useful knowledge from volumes of data. Communication of the ACM, 39(11):27–34.

Girvan, M. and Newman, M. E. J. (2002). Community structure in social and biological networks. PNAS, 99(12):7821–7826.

Kim, H.-s. and Lee, D. (2007). Parallel linkage. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 283–292, New York, NY, USA. ACM.

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.

Newman, M. E. J. (2003). The structure and function of complex networks. SIAM Review, 45:167–256.

Newman, M. E. J. (2004). Detecting community structure in networks. The European Physical Journal B - Condensed Matter and Complex Systems, 38:321–330.

Paskalev, P. and Antonov, A. (2006). Intelligent application for duplication detection.

Paskalev, P. and Antonov, A. (2007). Increasing the performance of an application for duplication detection. In CompSysTech ’07: Proceedings of the 2007 international conference on Computer systems and technologies, pages 1–8, New York, NY, USA. ACM.

Raedt, L. D. (2008). Logical and Relational Learning: From ILP to MRDM (Cognitive Technologies). Springer-Verlag New York, Inc., Secaucus, NJ, USA.

Reka Albert, H. J. and Barabasi, A. L. (1999). Diameter of the world-wide web. Nature, 401:130–131.

Rossi, R. G., Rezende, S. O., and de Andrade Lopes, A. (2010). Sistema para extração de informações de artigos científicos - iesystem. Technical Report 354, ICMC, São Carlos - SP.

Witten, I. H. and Frank, E. (2005). Data Mining Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, CA.
Publicado
19/07/2011
SILVA, Breno Júnio V. da; MOTTA, Robson; LOPES, Alneu de Andrade. Detecção de Autores Duplicados Utilizando Estrutura de Comunidades em Redes de Cooperação Científica. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 8. , 2011, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2011 . p. 335-345. ISSN 2763-9061.

Artigos mais lidos do(s) mesmo(s) autor(es)