Identificação do grafo de genealogia acadêmica de pesquisadores: Uma abordagem baseada na Plataforma Lattes
Resumo
Diferentes áreas do conhecimento acadêmico-científico têm realizado esforços para a criação de bases de dados de pesquisadores e seus relacionamentos de orientação. No entanto, grande parte destas bases apresentam problemas como redundância, ausência e imprecisão de informações. Neste artigo, apresentamos um algoritmo para a identificação automática de registros acadêmicos, considerando estes problemas. A contribuição deste trabalho recai na precisão da estrutura hierárquica de orientação acadêmica resultante do algoritmo (grafo), que facilita análises genealógicas. Como estudo de caso, prospectamos mais de 272 mil doutores registrados na Plataforma Lattes e apresentamos características inéditas sobre a genealogia acadêmica brasileira.
Referências
Dores, W., Benevenuto, F., and Laender, A. H. F. (2016). Extracting academic genealogy trees from the networked digital library of theses and dissertations. In Digital Libraries, 2016 IEEE/ACM Joint Conference on, pages 163–166.
Elias, M., Floeter-Winter, L. M., and Mena-Chalco, J. P. (2016). The dynamics of brazilian protozoology over the past century. Memórias do Instituto Oswaldo Cruz, 111(1):67–74.
Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3):37.
Ferreira, A. A., Gonçalves, M. A., and Laender, A. H. F. (2014). Disambiguating author names using minimum bibliographic information. World Digital Libraries, 7(1):71.
Gargiulo, F., Caen, A., and Carletti, R. L. T. (2016). The classical origin of modern mathematics. EPJ Data Science, 5(1):26.
Kim, J., Diesner, J., Aleyasen, A., Heejun, K., and Hwan-Min, K. (2014). Why name ambiguity resolution matters for scholarly big data research. In 2014 IEEE International Conference on Big Data, pages 1–6.
Korfhage, R. R. (1997). Information Storage and Retrieval. Wiley, 1st edition.
Lane, J. (2010). Let’s make science metrics more scientific. Nature, 464(7288):488–489.
Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. In Soviet physics doklady, volume 10, page 707.
Malmgren, R. D., Ottino, J. M., and Amaral, L. A. N. (2010). The role of mentorship in protégé performance. Nature, 465(7298):622–626.
Mena-Chalco, J. P. and Cesar Junior, R. (2013). Prospecção de dados acadêmicos de currículos lattes através de scriptlattes. In Bibliometria e Cientometria: reflexões teóricas e interfaces, pages 109–128.
Rahm, E. and Do, H. H. (2000). Data cleaning: Problems and current approaches. IEEE Data Eng. Bull., 23(4):3–13.
Rossi, L., Freire, I. L., and Mena-Chalco, J. P. (2017). Genealogical index: A metric to analyze advisor-advisee relationships. Journal of Informetrics, 11(2):564–582.
Rossi, L. and Mena-Chalco, J. P. (2014). Caracterização de árvores de genealogia acadêmica por meio de métricas em grafos. In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), pages 1–12, Brasília, DF, Brazil.
Sugimoto, C. R. (2014). Academic genealogy. In Cronin, B. and Sugimoto, C. R., editors, Beyond bibliometrics: Harnessing multidimensional indicators of scholarly impact, pages 365–382. first edition.
Sugimoto, C. R., Ni, C., Russell, T. G., and Bychowski, B. (2011). Academic genealogy as an indicator of interdisciplinarity: An examination of dissertation networks in library and information science. Journal of the American Society for Information Science and Technology, 62(9):1808–1828.