BrStats: a socioeconomic statistics dataset of the Brazilian cities

  • J. M. Toledo Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB) / Ministério do Trabalho e Emprego http://orcid.org/0000-0001-9284-0549
  • Thiago J. M. Moura Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB)
  • R. D. A. Timoteo Ministério do Trabalho e Emprego

Resumo


O Brasil é o quinto maior país do mundo e um dos mais populosos. Essas características tornam muito importante resumir dados atualizados de todas as regiões brasileiras para os tomadores de decisão, no setor público ou privado. Neste trabalho, obtemos um conjunto de dados unificado com dados estatísticos para todas as cidades do país, integrando dados relacionados à população, economia, trabalho, educação e saúde. Mostramos o processo de extração dos dados de diferentes fontes públicas, o processamento e a geração de uma única tabela. Discutimos os possíveis usos do conjunto de dados, analisamos as limitações da metodologia proposta e discutimos suas possíveis evoluções.

Palavras-chave: Statistical database, Socioeconomic data, Publicly available dataset

Referências

Bandy, G. (2018). International public financial management: Essentials of public sector accounting. Routledge.

Barros, A. N., Alencar, A., Nascimento, A., de Albuquerque, A. F., and Mello, R. F. (2022). Elaboração do conjunto de dados agregados do censo da educação básica. In Anais do IV Dataset Showcase Workshop, pages 35–45. SBC.

Clarindo, J., Fontes, W., and Coutinho, F. (2020). Qualisus: um dataset sobre dados da saúde pública no brasil. Proceedings of 2nd SBBD DSW, 2:418–428.

Conte, V. d. S. (2019). Mineração de dados educacionais para avaliar os fatores que influenciam no desempenho de candidatos do enem.

da Saúde, M. (2023). Datasus. https://datasus.saude.gov.br/. Accessed: 2023-06-15.

Davis, P. G. (2022). Indicadores e dados municipais: Um banco de dados para avaliar a eficiência das despesas públicas. In Anais do IV Dataset Showcase Workshop, pages 79–90. SBC.

de Albuquerque, A. F., Barros, A. N., Alencar, A., Nascimento, A., Bittencourt, I. M., and Mello, R. F. (2022). Dataset de estimativas populacionais desagregada por município e idade 2014-2020. In Anais do IV Dataset Showcase Workshop, pages 25–34. SBC.

De Laat, P. B. (2018). Algorithmic decision-making based on machine learning from big data: can transparency restore accountability? Philosophy & technology, 31(4):525–541.

Fischer, T. K., Lima, D., Rosa, R., Osório, D., and Boing, A. F. (2007). A mortalidade infantil no brasil: série histórica entre 1994-2004 e associação com indicadores socioeconômicos em municípios de médio e grande porte. Medicina (Ribeirão Preto), 40(4):559–566.

Gonçalves, M. V. F., dos Santos, J. S., Ferreira, C. Z., Zavaleta, J., da Cruz, S. M. S., and Sampaio, J. O. (2021). Datasets curados e enriquecidos com proveniência da campanha nacional de vacinação contra covid-19. In Anais do III Dataset Showcase Workshop, pages 148–159. SBC.

IBGE (2023a). Brasil — cidades e estados - ibge. [link]. Accessed: 2023-06-15.

IBGE (2023b). Conheça o brasil - biomas brasileiros. [link]. Accessed: 2023-06-15.

IBGE (2023c). Conheça o brasil - clima. [link]. Accessed: 2023-06-15.

IBGE (2023d). Ibge - Áreas territoriais. [link]. Accessed: 2023-06-15.

IBGE (2023e). Instituto brasileiro de geografia e estatística - ibge. https://www.ibge.gov.br/. Accessed: 2023-06-15.

IPEA (2023). Instituto de pesquisa econômica aplicada - ipea. https://www.ipea.gov.br/portal/. Accessed: 2023-06-15.

Jaen-Varas, D., Mari, J. J., Asevedo, E., Borschmann, R., Diniz, E., Ziebold, C., and Gadelha, A. (2019). The association between adolescent suicide rates and socioeconomic indicators in brazil: a 10-year retrospective ecological study. Brazilian Journal of Psychiatry, 41:389–395.

Maciejewski, M. (2017). To do more, better, faster and more cheaply: Using big data in public administration. International Review of Administrative Sciences, 83(1 suppl):120–135.

Mergel, I., Rethemeyer, R. K., and Isett, K. (2016). Big data in public affairs. Public Administration Review, 76(6):928–937.

Rodríguez-Rueda, P., Ruiz-Aguilar, J., González-Enrique, J., and Turias, I. (2021). Origin–destination matrix estimation and prediction from socioeconomic variables using automatic feature selection procedure-based machine learning model. Journal of Urban Planning and Development, 147(4):04021056.

Santos, E. G. d. O. and Barbosa, I. R. (2017). Conglomerados espaciais da mortalidade por suicídio no nordeste do brasil e sua relação com indicadores socioeconômicos. Cadernos Saúde Coletiva, 25:371–378.

Tang, W., Wang, H., Lee, X.-L., and Yang, H.-T. (2022). Machine learning approach to uncovering residential energy consumption patterns based on socioeconomic and smart meter data. Energy, 240:122500.

Van Rossum, G., Drake, F. L., et al. (1995). Python reference manual, volume 111. Centrum voor Wiskunde en Informatica Amsterdam.

Wang, P. and Zong, L. (2023). Does machine learning help private sectors to alarm crises? evidence from china’s currency market. Physica A: Statistical Mechanics and its Applications, page 128470.

Zhang, C., Dong, H., Geng, Y., Liang, H., and Liu, X. (2022). Machine learning based prediction for china’s municipal solid waste under the shared socioeconomic pathways. Journal of Environmental Management, 312:114918.
Publicado
25/09/2023
TOLEDO, J. M.; MOURA, Thiago J. M.; TIMOTEO, R. D. A.. BrStats: a socioeconomic statistics dataset of the Brazilian cities. In: DATASET SHOWCASE WORKSHOP (DSW), 5. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 67-78. DOI: https://doi.org/10.5753/dsw.2023.233621.