RPAs e Data Lakes para a Indústria 4.0: Um Estudo de Caso de Ecossistema de Dados Integrados

  • Arthur Lucas dos S. Bezerra LG Electronics do Brasil
  • Iranildo S. Batalha LG Electronics do Brasil
  • Luís Ricardo A. Filho LG Electronics do Brasil
  • Clarice M. Almeida LG Electronics do Brasil
  • Matheus Inácio N. Dantas LG Electronics do Brasil
  • Nelson A. Gouvêa LG Electronics do Brasil

Resumo


O uso de RPAs tem acelerado a automação de processos em ambientes corporativos, mas apresenta limitações de desempenho diante de grandes volumes de dados. Esse contexto revela oportunidades de melhoria na escalabilidade e eficiência das soluções. Este artigo propõe uma arquitetura de Data Lake distribuída, modular e de baixo acoplamento para coleta, armazenamento e processamento de dados legados heterogêneos. A solução utiliza ferramentas de código aberto como Hadoop, Spark e Airflow, organizadas em camadas funcionais. Foi implementado um estudo de caso com dados de linhas de produção em uma multinacional do segmento de eletrônicos, demonstrando a viabilidade e os benefícios da abordagem proposta.

Palavras-chave: Automação de Processos Robóticos (RPA), Data Lake, Indústria 4.0, Big Data, Governança de Dados, Arquitetura de Dados, Apache Spark, Apache Hadoop (HDFS), Apache Airflow, Escalabilidade Horizontal

Referências

Giebler, C., Gröger, C., Hoos, E., Eichler, R., Schwarz, H., and Mitschang, B. (2021). The data lake architecture framework: A foundation for building a comprehensive data lake architecture.

Imperva (2024). Imperva 2024 bad bot report. Technical report, Imperva Inc. Accessed: 2025-05-19.

Khine, Pwint Phyu and Wang, Zhao Shun (2018). Data lake: a new ideology in big data era. ITM Web Conf., 17:03025.

Kothandapani, H. P. (2021). Integrating robotic process automation and machine learning in data lakes for automated model deployment, retraining, and data-driven decision making.

Minh, T. P., Quang, H. H., and Manh, T. N. (2024). A zone-based data lake architecture for smart crop farming in vietnam: A strategic perspective. In Proceedings of the 2nd International Conference - Resilience by Technology and Design (RTD 2024), pages 29–44. Atlantis Press.

Nargesian, F., Zhu, E., Miller, R. J., Pu, K. Q., and Arocena, P. C. (2019). Data lake management: challenges and opportunities. Proc. VLDB Endow., 12(12):1986–1989.

Pereira, A. and Simonetto, E. (2018). Indústria 4.0: Conceitos e perspectivas para o brasil. Revista da Universidade Vale do Rio Verde, 16(1). Doutorando e professor do Programa de Pós-Graduação em Administração, UFSM.

Ribeiro, J., Lima, R., Eckhardt, T., and Paiva, S. (2021). Robotic process automation and artificial intelligence in industry 4.0 – a literature review. Procedia Computer Science, 181:51–58. CENTERIS 2020 - International Conference on ENTERprise Information Systems /ProjMAN 2020 - International Conference on Project MANagement /HCist 2020 - International Conference on Health and Social Care Information Systems and Technologies 2020, CENTERIS/ProjMAN/HCist 2020.

Rodrigues, J. and Mello, R. (2022). Um estudo sobre arquiteturas e metadados em data lakes. In Anais da XVII Escola Regional de Banco de Dados, pages 131–134, Porto Alegre, RS, Brasil. SBC.

Shukla, S. (2022). Developing pragmatic data pipelines using apache airflow on google cloud platform. INTERNATIONAL JOURNAL OF COMPUTER SCIENCES AND ENGINEERING, 10:1–8.

Tito, L., Motinha, C., Santiago, F., Ocaña, K., Bedo, M., and de Oliveira, D. (2020). Xi-dl: um sistema de gerência de data lake para monitoramento de dados da saúde. In Anais do XXXV Simpósio Brasileiro de Bancos de Dados, pages 151–156, Porto Alegre, RS, Brasil. SBC.

Vasconcelos, F. F. and Coutinho, F. J. (2024). Data lakehouses para a análise de dados geoespaciais em larga escala. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 722–728, Porto Alegre, RS, Brasil. SBC.

Yang, C.-T., Chen, T.-Y., Kristiani, E., and Wu, S. F. (2021). The implementation of data storage and analytics platform for big data lake of electricity usage with spark. The Journal of Supercomputing, 77(6):5934–5959.
Publicado
29/09/2025
BEZERRA, Arthur Lucas dos S.; BATALHA, Iranildo S.; A. FILHO, Luís Ricardo; ALMEIDA, Clarice M.; DANTAS, Matheus Inácio N.; GOUVÊA, Nelson A.. RPAs e Data Lakes para a Indústria 4.0: Um Estudo de Caso de Ecossistema de Dados Integrados. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 753-759. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247499.