Modelagem dimensional do Cadastro Geral de Empregados e Desempregados

  • André Augusto da Silva Pereira Universidade Federal do Pará
  • Marcos César da Rocha Seruffo Universidade Federal do Pará
  • Marcelino Silva da Silva Universidade Federal do Oeste do Pará

Resumo


O Ministério do Trabalho e Emprego (MTE) conta com um registro permanente de dados referentes a admissões e dispensas de empregados sob o regime da Consolidação das Leis do Trabalho (CLT), denominado CAGED (Cadastro Geral de Empregados e Desempregados). Suas informações são utilizadas no Programa de Seguro-Desemprego e em outros programas sociais, e são divulgados para reutilização pela sociedade. Neste trabalho, os microdados do CAGED de janeiro de 2020 a maio de 2023 são enriquecidos e consolidados em um conjunto de dados, utilizando a técnica de modelagem dimensional, e disponibilizados em arquivos de dados em formato binário, aberto e orientado a colunas, com objetivo de permitir o armazenamento e recuperação de dados de maneira simples e eficiente. Esta abordagem foi adotada por tratar-se de um volume de dados massivo, com mais de 123 milhões de registros, o que representa um obstáculo técnico para manipulação utilizando formatos tradicionais de texto tabular (CSV).

Palavras-chave: Ciência de dados, Engenharia de dados, Dados públicos, Modelagem de dados, CAGED

Referências

Abadi, D. J., Boncz, P. A., and Harizopoulos, S. (2009). Column-oriented database systems. Proc. VLDB Endow., 2(2):1664–1665.

Abeykoon, V. and Fox, G. C. (2023). Trends in high performance data engineering for data analytics.

Almeida, M. E., Dias, T. S., Farias, R. J. d., Albuquerque, A. V. S. M., Torres, S. L. R., and Oliveira, L. F. B. d. (2020). Substituição da captação dos dados do caged pelo esocial: implicações para as estatísticas do emprego formal.

Kimball, R. (1997). A dimensional modeling manifesto. Dbms, 10(9):58–70.

Kimball, R. and Caserta, J. (2011). The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Wiley.

MTE (2020). Nota técnica: Substituição da captação dos dados do caged pelo esocial.

MTE (2023). Cadastro geral de empregados e desempregados (caged).

Nozoe, N. H., Bianchi, A. M., and Rondet, A. C. A. (2003). A nova classificação brasileira de ocupações: anotações de uma pesquisa empírica. São Paulo em perspectiva, 17:234–246.

Vohra, D. and Vohra, D. (2016). Apache parquet. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, pages 325–335.
Publicado
25/09/2023
Como Citar

Selecione um Formato
DA SILVA PEREIRA, André Augusto; DA ROCHA SERUFFO, Marcos César; SILVA DA SILVA, Marcelino. Modelagem dimensional do Cadastro Geral de Empregados e Desempregados. In: DATASET SHOWCASE WORKSHOP (DSW), 5. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 58-66. DOI: https://doi.org/10.5753/dsw.2023.233589.