Modelagem dimensional do Cadastro Geral de Empregados e Desempregados
Resumo
O Ministério do Trabalho e Emprego (MTE) conta com um registro permanente de dados referentes a admissões e dispensas de empregados sob o regime da Consolidação das Leis do Trabalho (CLT), denominado CAGED (Cadastro Geral de Empregados e Desempregados). Suas informações são utilizadas no Programa de Seguro-Desemprego e em outros programas sociais, e são divulgados para reutilização pela sociedade. Neste trabalho, os microdados do CAGED de janeiro de 2020 a maio de 2023 são enriquecidos e consolidados em um conjunto de dados, utilizando a técnica de modelagem dimensional, e disponibilizados em arquivos de dados em formato binário, aberto e orientado a colunas, com objetivo de permitir o armazenamento e recuperação de dados de maneira simples e eficiente. Esta abordagem foi adotada por tratar-se de um volume de dados massivo, com mais de 123 milhões de registros, o que representa um obstáculo técnico para manipulação utilizando formatos tradicionais de texto tabular (CSV).
Referências
Abeykoon, V. and Fox, G. C. (2023). Trends in high performance data engineering for data analytics.
Almeida, M. E., Dias, T. S., Farias, R. J. d., Albuquerque, A. V. S. M., Torres, S. L. R., and Oliveira, L. F. B. d. (2020). Substituição da captação dos dados do caged pelo esocial: implicações para as estatísticas do emprego formal.
Kimball, R. (1997). A dimensional modeling manifesto. Dbms, 10(9):58–70.
Kimball, R. and Caserta, J. (2011). The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. Wiley.
MTE (2020). Nota técnica: Substituição da captação dos dados do caged pelo esocial.
MTE (2023). Cadastro geral de empregados e desempregados (caged).
Nozoe, N. H., Bianchi, A. M., and Rondet, A. C. A. (2003). A nova classificação brasileira de ocupações: anotações de uma pesquisa empírica. São Paulo em perspectiva, 17:234–246.
Vohra, D. and Vohra, D. (2016). Apache parquet. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, pages 325–335.