Análise da Influência da Modelagem e Formato de Dados no Desempenho de Data Warehouse Baseado em Hadoop-Hive

Beatriz Fragnan P. de Oliveira; Aline S. Oliveira Valente; Marcio Victorino; Edward Ribeiro; Maristela Holanda

doi:10.5753/sbbd.2021.17884

Beatriz Fragnan P. de Oliveira Universidade de Brasília (UnB)
Aline S. Oliveira Valente Universidade de Brasília (UnB)
Marcio Victorino Universidade de Brasília (UnB)
Edward Ribeiro Universidade de Brasília (UnB)
Maristela Holanda Universidade de Brasília (UnB)

DOI: https://doi.org/10.5753/sbbd.2021.17884

Resumo

O desenvolvimento de data warehouse em ambientes em nuvem tem crescido. A modelagem de dados neste ambiente ainda não tem um padrão definido. Assim, esse artigo tem como objetivo apresentar uma análise comparativa de desempenho do uso da plataforma Hive no modelo floco de neve e totalmente desnormalizado. Os dados utilizados para análise são os dados abertos do Exército Brasileiro no ambiente Google Cloud. As análises são realizadas para diferentes quantidades de linhas no Hive, para um cenário de configuração do cluster e para dois tipos de armazenamento das tabelas. Por fim, utilizando o formato Parquet nas tabelas, obteve-se um desempenho mais de quatro vezes superior ao do formato CSV.

Palavras-chave: Data warehouse, hive, nosql, Big data, csv, parquet, modelagem de dados, formato de dados,

Referências

Cassavia, N., Dicosta, P., Masciari, E., and Sacca, D. (2014). Data preparation for tourist data big data warehousing. In International Conference on Data Management Technologies and Applications, pages 419–426. INSTICC, SciTePress.

Costa, E., Costa, C., and Santos, M. Y. (2017). Efficient big data modelling and organization for hadoop hive-based data warehouses. In Themistocleous, M. and Morabito, V., editors, European, Mediterranean and Middle Eastern Conference on Information Systems, pages 3–16. Springer International Publishing.

Di Tria, F., Lefons, E., and Tangorra, F. (2014). Design process for big data warehouses. In International Conference on Data Science and Advanced Analytics (DSAA), pages 512–518.

Jacobs, A. (2009). The pathologies of big data. Comm. of the ACM, 52(8):36–44.

Mohanty, S., Jagadeesh, M., and Srivatsa, H. (2013). Big data Imperatives: Enterprise Big Data Warehouse, BI Implementations and Analytics. Apress, 1st edition.

Rodrigues, M., Santos, M. Y., and Bernardino, J. (2019). Big data processing tools: An experimental performance evaluation. WIREs Data Mining and Knowledge Discovery, 9(2):e1297.

Sandoval, L. J. (2015). Design of business intelligence applications using big data technology. In 2015 IEEE Thirty Fifth Central American and Panama Convention (CONCAPAN XXXV), pages 1–6.

Santos, M. Y. and Costa, C. (2016). Data warehousing in big data: From multidimensional to tabular data models. In Ninth International C* Conference on Computer Science Software Engineering, pages 51–60. ACM.

Weintraub, G., Gudes, E., and Dolev, S. (2021). Needle in a haystack queries in cloud data lakes. In EDBT/ICDT Workshops. CEUR-WS.org.