Um Estudo sobre Ensino de Engenharia de Dados nas Universidades Brasileiras: Estado Atual e Perspectivas de Mercado
Resumo
O termo "Engenharia de Dados"(ED) tem sido utilizado frequentemente na literatura e em propostas curriculares atuais para se referir aos processos de adquirir, organizar e preparar dados para serem consumidos em análises exploratórias, como entrada de sistemas e aplicações ou outros contextos similares. Com o surgimento da área de Ciência de Dados, esse termo tem sido usado para englobar o que tradicionalmente era conhecido como gerenciamento de dados. Neste estudo, exploramos a ED no contexto acadêmico e industrial brasileiro, destacando a crescente relevância dessa área na sociedade atual e a necessidade de habilidades relacionadas a ela nos profissionais da área de computação. Este estudo foi motivado pela percepção dos autores de que os avanços de, pelo menos, uma década na indústria em ED ainda não foram adequadamente absorvidos pelo ensino de graduação das universidades. Através de levantamentos realizados sobre as disciplinas, bibliografias e ementas relacionadas à ED, em 23 universidades brasileiras e junto a empresas de tecnologia do país, construímos uma taxonomia dos tópicos ensinados atualmente e uma outra taxonomia de tópicos considerados relevantes para a indústria. O estudo comparativo destas taxonomias revelou que existe uma lacuna entre o ensino de ED e as demandas do mercado, com currículos acadêmicos frequentemente desatualizados quanto a tópicos considerados relevantes para a indústria contemporânea. Em particular, tópicos relacionados a plataformas de dados de alto desempenho, gerência de dados em nuvem e workflow de dados são destacados como grandes necessidades atuais da indústria, mas que são pouco explorados nos currículos atuais. Nosso objetivo, com esse estudo, é subsidiar mudanças nos currículos que possam contribuir para a formação de profissionais mais qualificados e alinhados às necessidades modernas do mercado.
Referências
ACM and IEEE. 2020. ACM Computing Curricula 2020. [link]
ACM, IEEE and AAAI. 2023. Computer Science Curricula 2023 - Version Beta. [link]
Imanol Arrieta-Ibarra et al. 2018. Should We Treat Data as Labor? Moving beyond "Free". AEA Papers and Proceedings 108, 38–42.
Tijl De Bie et al. 2022. Automating data science. Commun. ACM 65, 3, 76–87.
Peter J. Denning. 2003. Great principles of computing. Commun. ACM 46, 11, 15–20.
Andreas Grillenberger and Ralf Romeike. 2014. Big Data - Challenges for Computer Science Education. In Informatics in Schools. Teaching and Learning Perspectives - 7th International Conference on Informatics in Schools: Situation, Evolution, and Perspectives, ISSEP. 29–40.
Andreas Grillenberger and Ralf Romeike. 2017. Key Concepts of Data Management – an Empirical Approach. In Proceedings of the 17th Koli Calling International Conference on Computing Education Research. 30–39.
Ismail Bile Hassan and Jigang Liu. 2019. Embedding Data Science into Computer Science Education. In IEEE International Conference on Electro Information Technology EIT. 367–372.
Nicolaus Henke et al. 2016. The age of analytics: Competing in a data-driven world.
Alfredo Nazábal et al. 2020. Data Engineering for Data Analytics: A Classification of the Issues, and Case Studies. CoRR abs/2004.12929.
David Reinsel et al. 2018. The Digitization of the World - From Edge to Core.
SBC. 2021. Ref. Curricular: Bacharelado em Ciência de Dados. [link]
Yasin N. Silva et al. 2014. Integrating big data into the computing curricula. In The 45th ACM Technical Symposium on Computer Science Education, SIGCSE. 139–144.
Michael Stonebraker and Ugur Çetintemel. 2005. "One Size Fits All": An Idea Whose Time Has Come and Gone (Abstract). In Proceedings of the 21st International Conference on Data Engineering, ICDE. 2–11
Matei Zaharia et al. 2021. Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics. In 11th Conference on Innovative Data Systems Research, CIDR 2021, Virtual Event, Online Proceedings.