Uma Arquitetura de Data Lake de Dados Ambientais e Socioeconômicos para Fomentar Pesquisa e Inovação

  • Aderaldo Neto UFPB
  • Mateus Neres UFPB
  • Marcus Carvalho UFPB

Resumo


O crescente volume de dados públicos gerados por órgãos governamentais e instituições de pesquisa demanda soluções avançadas para armazenamento e análise. Este artigo propõe a implementação de um Data Lake para integrar dados ambientais e socioeconômicos, utilizando tecnologias de código aberto. A abordagem adotada permite a ingestão, transformação, compartilhamento e visualização de grandes volumes de dados. A arquitetura desenvolvida utiliza um pipeline de Extração, Transformação e Carga (ELT) para organizar dados no formato de Data Warehouse e facilitar análises. Como estudo de caso, foi desenvolvido um modelo de Data Warehouse e dashboards interativos para dados agregados de pesquisas do IBGE.

Referências

Ávila, Thiago (2017). O que faremos com os 40 trilhões de gigabytes de dados disponíveis em 2020?. Open Knowledge Brasil. Disponível em: [link]. Acesso em: 01 mar. 2025.

Kimball, R. and Ross, M. (2011). The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.

Maduro-Abreu, A., Litre, G., Santos, L. dos, Avila, K., Soares, D. de C., Sátiro, G. S., & Oliveira, J. E. de. (2020). Transparência da informação pública no Brasil: uma análise da acessibilidade de Big Data para o estudo das interfaces entre mudanças climáticas, mudanças produtivas e saúde. Revista Eletrônica De Comunicação, Informação & Inovação Em Saúde, 14(1). DOI: 10.29397/reciis.v14i1.1690

Medina, Letícia (2024). Desafios para Automação de Dados Públicos para Sociedade. DataPolicy. Disponível em: [link]. Acesso em: 01 mar. 2025.

NetApp (2023) Cloud Complexity Report - NetApp. Disponível em: [link]. Acesso em: 01 mar. 2025.

Pagotto, D. do P., Marques, W. da S., Oliveira, D. S. de, Ferreira, V. da R. S., Nunes de Azevedo, V., & Borges Júnior, C. V. (2024). Inovação em saúde: a implementação de um data lake para armazenamento, sistematização e disponibilização de dados em saúde no Brasil. InCID: Revista De Ciência Da Informação E Documentação, 15(1), e-213345. DOI: 10.11606/issn.2178-2075.incid.2024.213345

Rocha, M., & Souza Júnior, M. (2020). Um Dashboard para Análise de Indicadores de Continuidade relacionados à Interrupções no Fornecimento de Energia Elétrica por Causas Ambientais. In Anais do XI Workshop de Computação Aplicada à Gestão do Meio Ambiente e Recursos Naturais, (pp. 131-140). Porto Alegre: SBC. DOI: 10.5753/wcama.2020.11027
Publicado
20/07/2025
NETO, Aderaldo; NERES, Mateus; CARVALHO, Marcus. Uma Arquitetura de Data Lake de Dados Ambientais e Socioeconômicos para Fomentar Pesquisa e Inovação. In: WORKSHOP DE COMPUTAÇÃO APLICADA À GESTÃO DO MEIO AMBIENTE E RECURSOS NATURAIS (WCAMA), 16. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 296-305. ISSN 2595-6124. DOI: https://doi.org/10.5753/wcama.2025.9312.