GitHub Proxy Server: A tool for supporting massive data collection on GitHub

  • Hudson Silva Borges UFMS
  • Marco Tulio Valente UFMG

Resumo


GitHub é a plataforma de codificação social mais popular e amplamente utilizada por comunidades e empresas para hospedagem de projetos open-source. Além disso, a plataforma conta com uma poderosa API que permite a pesquisadores coletarem informações públicas de projetos hospedados nela. Contudo, a coleta massiva de dados pode ser bastante desafiadora devido a limitações e mecanismos de detecção de abusos existentes. O presente trabalho apresentada uma ferramenta, chamada GitHub Proxy Server, que abstrai tais complexidades por meio de uma arquitetura independente de plataforma e linguagem de programação. Experimentos realizados com a ferramenta mostram que é possível melhorar o desempenho de tarefas de mineração do GitHub sem que complexidades adicionais sejam inseridas nos projetos.
Palavras-chave: proxy, github, mineração, apis
Publicado
03/10/2022
BORGES, Hudson Silva; VALENTE, Marco Tulio. GitHub Proxy Server: A tool for supporting massive data collection on GitHub. In: SIMPÓSIO BRASILEIRO DE ENGENHARIA DE SOFTWARE (SBES), 36. , 2022, Uberlândia. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 370–375.