A Data Lake Architecture for Environmental and Socioeconomic Data to Foster Research and Innovation

  • Aderaldo Neto UFPB
  • Mateus Neres UFPB
  • Marcus Carvalho UFPB

Abstract


The increasing volume of public data generated by government agencies and research institutions requires advanced storage and analysis solutions. This article proposes the implementation of a Data Lake to integrate environmental and socioeconomic data using open-source technologies. The adopted approach enables the ingestion, transformation, sharing, and visualization of large volumes of data. The developed architecture employs an Extract, Load, and Transform (ELT) pipeline to organize data in a Data Warehouse format and facilitate analysis. As a case study, a Data Warehouse model and interactive dashboards were developed for aggregated data from IBGE surveys.

References

Ávila, Thiago (2017). O que faremos com os 40 trilhões de gigabytes de dados disponíveis em 2020?. Open Knowledge Brasil. Disponível em: [link]. Acesso em: 01 mar. 2025.

Kimball, R. and Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.

Maduro-Abreu, A., Litre, G., Santos, L. dos, Avila, K., Soares, D. de C., Sátiro, G. S., & Oliveira, J. E. de. (2020). Transparência da informação pública no Brasil: uma análise da acessibilidade de Big Data para o estudo das interfaces entre mudanças climáticas, mudanças produtivas e saúde. Revista Eletrônica De Comunicação, Informação & Inovação Em Saúde, 14(1). DOI: 10.29397/reciis.v14i1.1690

Medina, Letícia (2024). Desafios para Automação de Dados Públicos para Sociedade. DataPolicy. Disponível em: [link]. Acesso em: 01 mar. 2025.

NetApp (2023) Cloud Complexity Report - NetApp. Disponível em: [link]. Acesso em: 01 mar. 2025.

Pagotto, D. do P., Marques, W. da S., Oliveira, D. S. de, Ferreira, V. da R. S., Nunes de Azevedo, V., & Borges Júnior, C. V. (2024). Inovação em saúde: a implementação de um data lake para armazenamento, sistematização e disponibilização de dados em saúde no Brasil. InCID: Revista De Ciência Da Informação E Documentação, 15(1), e-213345. DOI: 10.11606/issn.2178-2075.incid.2024.213345

Rocha, M., & Souza Júnior, M. (2020). Um Dashboard para Análise de Indicadores de Continuidade relacionados à Interrupções no Fornecimento de Energia Elétrica por Causas Ambientais. In Anais do XI Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos Naturais, (pp. 131-140). Porto Alegre: SBC. DOI: 10.5753/wcama.2020.11027
Published
2025-07-20
NETO, Aderaldo; NERES, Mateus; CARVALHO, Marcus. A Data Lake Architecture for Environmental and Socioeconomic Data to Foster Research and Innovation. In: WORKSHOP ON COMPUTING APPLIED TO THE MANAGEMENT OF THE ENVIRONMENT AND NATURAL RESOURCES (WCAMA), 16. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 296-305. ISSN 2595-6124. DOI: https://doi.org/10.5753/wcama.2025.9312.