GitHub Proxy Server: A tool for supporting massive data collection on GitHub
Abstract
GitHub é a plataforma de codificação social mais popular e amplamente utilizada por comunidades e empresas para hospedagem de projetos open-source. Além disso, a plataforma conta com uma poderosa API que permite a pesquisadores coletarem informações públicas de projetos hospedados nela. Contudo, a coleta massiva de dados pode ser bastante desafiadora devido a limitações e mecanismos de detecção de abusos existentes. O presente trabalho apresentada uma ferramenta, chamada GitHub Proxy Server, que abstrai tais complexidades por meio de uma arquitetura independente de plataforma e linguagem de programação. Experimentos realizados com a ferramenta mostram que é possível melhorar o desempenho de tarefas de mineração do GitHub sem que complexidades adicionais sejam inseridas nos projetos.
Keywords:
proxy, github, mineração, apis
Published
2022-10-03
How to Cite
BORGES, Hudson Silva; VALENTE, Marco Tulio.
GitHub Proxy Server: A tool for supporting massive data collection on GitHub. In: BRAZILIAN SYMPOSIUM ON SOFTWARE ENGINEERING (SBES), 36. , 2022, Uberlândia.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2022
.
p. 370–375.
ISSN 2833-0633.
