Building a Georeferenced Dataset for Higher Education in Brazil
Abstract
INEP annually provides microdata from the Higher Education Census, which includes detailed information on undergraduate courses and educational institutions distributed throughout the country. Although these data are rich in content, they have structural and consistency limitations that hinder their full use, especially in comparative analyses of historical series. Given this scenario, this work describes the development of a dataset containing information from 2009 to 2023. The dataset was submitted to a standardization and enrichment process, during which geolocation data was added. The dataset is available in open format.
Keywords:
educational data, microdata, education census, geospatial data, enrichment, dataset, INEP
References
Alves, M. T. G. (2020). Caracterização das desigualdades educacionais com dados públicos: Desafios para conceituação e operacionalização empírica. Lua Nova: Revista de Cultura e Política, (110):189–214.
Barros, A., Alencar, A., Nascimento, A., Albuquerque, A., and Mello, R. (2022). Elaboração do conjunto de dados agregados do censo da educação básica. In Anais do IV Dataset Showcase Workshop, pages 35–45, Porto Alegre, RS, Brasil. SBC.
da Fonseca, S. O. and Namen, A. A. (2016). Mineração em bases de dados do INEP: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, 32(1):133–157.
de Castro Soares, R., Neto, N. W., Coutinho, L. R., da Silva e Silva, F. J., dos Santos, D. V., and Teles, A. S. (2021). Mineração de dados da educação básica brasileira usando as bases do INEP: Uma revisão sistemática da literatura. CINTED-UFRGS Revista Novas Tecnologias na Educação (RENOTE), 19(1):361–370.
Saraiva, R. L., Sousa, P. S. d., Araújo, A. A., and Souza, J. (2023). Análise descritiva dos microdados do censo da educação superior do INEP para cursos de tecnologia da informação e comunicação no Brasil – um panorama 2015–2021. In Anais do XXXI Workshop sobre Educação em Computação (WEI), pages 443–453, João Pessoa, PB, Brasil. Sociedade Brasileira de Computação.
Vizzotto, P. A. (2020). Um panorama sobre as licenciaturas em física do Brasil: análise descritiva dos microdados do censo da educação superior do INEP. Revista Brasileira de Ensino de Física, 43(1):e20200112.
Yamanaka, M., de Almeida, D., de Almeida, P. R., Dominico, S., Peres, L., Sunye, M., and Almeida, E. (2024). Statistical validation of column matching in the database schema evolution of the brazilian public school census. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 498–509, Porto Alegre, RS, Brasil. SBC.
Barros, A., Alencar, A., Nascimento, A., Albuquerque, A., and Mello, R. (2022). Elaboração do conjunto de dados agregados do censo da educação básica. In Anais do IV Dataset Showcase Workshop, pages 35–45, Porto Alegre, RS, Brasil. SBC.
da Fonseca, S. O. and Namen, A. A. (2016). Mineração em bases de dados do INEP: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, 32(1):133–157.
de Castro Soares, R., Neto, N. W., Coutinho, L. R., da Silva e Silva, F. J., dos Santos, D. V., and Teles, A. S. (2021). Mineração de dados da educação básica brasileira usando as bases do INEP: Uma revisão sistemática da literatura. CINTED-UFRGS Revista Novas Tecnologias na Educação (RENOTE), 19(1):361–370.
Saraiva, R. L., Sousa, P. S. d., Araújo, A. A., and Souza, J. (2023). Análise descritiva dos microdados do censo da educação superior do INEP para cursos de tecnologia da informação e comunicação no Brasil – um panorama 2015–2021. In Anais do XXXI Workshop sobre Educação em Computação (WEI), pages 443–453, João Pessoa, PB, Brasil. Sociedade Brasileira de Computação.
Vizzotto, P. A. (2020). Um panorama sobre as licenciaturas em física do Brasil: análise descritiva dos microdados do censo da educação superior do INEP. Revista Brasileira de Ensino de Física, 43(1):e20200112.
Yamanaka, M., de Almeida, D., de Almeida, P. R., Dominico, S., Peres, L., Sunye, M., and Almeida, E. (2024). Statistical validation of column matching in the database schema evolution of the brazilian public school census. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 498–509, Porto Alegre, RS, Brasil. SBC.
Published
2025-09-29
How to Cite
RAMOS, Maria A.; CORREIA, Diêgo de A.; SILVA, Rafael Luciano L.; COUTINHO, Fabio J..
Building a Georeferenced Dataset for Higher Education in Brazil. In: DATASET SHOWCASE WORKSHOP (DSW), 7. , 2025, Fortaleza/CE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 22-33.
DOI: https://doi.org/10.5753/dsw.2025.247829.
