GitHub Proxy Server: A tool for supporting massive data collection on GitHub
Resumo
GitHub é a plataforma de codificação social mais popular e amplamente utilizada por comunidades e empresas para hospedagem de projetos open-source. Além disso, a plataforma conta com uma poderosa API que permite a pesquisadores coletarem informações públicas de projetos hospedados nela. Contudo, a coleta massiva de dados pode ser bastante desafiadora devido a limitações e mecanismos de detecção de abusos existentes. O presente trabalho apresentada uma ferramenta, chamada GitHub Proxy Server, que abstrai tais complexidades por meio de uma arquitetura independente de plataforma e linguagem de programação. Experimentos realizados com a ferramenta mostram que é possível melhorar o desempenho de tarefas de mineração do GitHub sem que complexidades adicionais sejam inseridas nos projetos.
Palavras-chave:
proxy, github, mineração, apis
Publicado
03/10/2022
Como Citar
BORGES, Hudson Silva; VALENTE, Marco Tulio.
GitHub Proxy Server: A tool for supporting massive data collection on GitHub. In: SIMPÓSIO BRASILEIRO DE ENGENHARIA DE SOFTWARE (SBES), 36. , 2022, Uberlândia.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2022
.
p. 370–375.