Building a Georeferenced Dataset for Higher Education in Brazil

  • Maria A. Ramos Federal University of Alagoas (UFAL)
  • Diêgo de A. Correia Federal University of Alagoas (UFAL)
  • Rafael Luciano L. Silva Federal University of Alagoas (UFAL)
  • Fabio J. Coutinho Federal University of Alagoas (UFAL) https://orcid.org/0000-0002-9892-023X

Abstract


INEP annually provides microdata from the Higher Education Census, which includes detailed information on undergraduate courses and educational institutions distributed throughout the country. Although these data are rich in content, they have structural and consistency limitations that hinder their full use, especially in comparative analyses of historical series. Given this scenario, this work describes the development of a dataset containing information from 2009 to 2023. The dataset was submitted to a standardization and enrichment process, during which geolocation data was added. The dataset is available in open format.
Keywords: educational data, microdata, education census, geospatial data, enrichment, dataset, INEP

References

Alves, M. T. G. (2020). Caracterização das desigualdades educacionais com dados públicos: Desafios para conceituação e operacionalização empírica. Lua Nova: Revista de Cultura e Política, (110):189–214.

Barros, A., Alencar, A., Nascimento, A., Albuquerque, A., and Mello, R. (2022). Elaboração do conjunto de dados agregados do censo da educação básica. In Anais do IV Dataset Showcase Workshop, pages 35–45, Porto Alegre, RS, Brasil. SBC.

da Fonseca, S. O. and Namen, A. A. (2016). Mineração em bases de dados do INEP: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, 32(1):133–157.

de Castro Soares, R., Neto, N. W., Coutinho, L. R., da Silva e Silva, F. J., dos Santos, D. V., and Teles, A. S. (2021). Mineração de dados da educação básica brasileira usando as bases do INEP: Uma revisão sistemática da literatura. CINTED-UFRGS Revista Novas Tecnologias na Educação (RENOTE), 19(1):361–370.

Saraiva, R. L., Sousa, P. S. d., Araújo, A. A., and Souza, J. (2023). Análise descritiva dos microdados do censo da educação superior do INEP para cursos de tecnologia da informação e comunicação no Brasil – um panorama 2015–2021. In Anais do XXXI Workshop sobre Educação em Computação (WEI), pages 443–453, João Pessoa, PB, Brasil. Sociedade Brasileira de Computação.

Vizzotto, P. A. (2020). Um panorama sobre as licenciaturas em física do Brasil: análise descritiva dos microdados do censo da educação superior do INEP. Revista Brasileira de Ensino de Física, 43(1):e20200112.

Yamanaka, M., de Almeida, D., de Almeida, P. R., Dominico, S., Peres, L., Sunye, M., and Almeida, E. (2024). Statistical validation of column matching in the database schema evolution of the brazilian public school census. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 498–509, Porto Alegre, RS, Brasil. SBC.
Published
2025-09-29
RAMOS, Maria A.; CORREIA, Diêgo de A.; SILVA, Rafael Luciano L.; COUTINHO, Fabio J.. Building a Georeferenced Dataset for Higher Education in Brazil. In: DATASET SHOWCASE WORKSHOP (DSW), 7. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 22-33. DOI: https://doi.org/10.5753/dsw.2025.247829.