Reduzindo Custos de Implantação e Execução de Clusters Spark em Nuvens Públicas

Alan L. Nunes; Lúcia Maria de Assumpção Drummond; Cristina Boeres

doi:10.5753/eradrj.2023.231713

Alan L. Nunes Universidade Federal Fluminense http://orcid.org/0000-0002-9384-862X
Lúcia Maria de Assumpção Drummond Universidade Federal Fluminense
Cristina Boeres Universidade Federal Fluminense https://orcid.org/0000-0002-1679-6643

DOI: https://doi.org/10.5753/eradrj.2023.231713

Resumo

Provedores de nuvens públicas oferecem uma grande variedade de serviços e recursos computacionais. A utilização de serviços mais especializados e automaticamente gerenciados pelos provedores, tal como o modelo de Plataforma como Serviço (PaaS), é uma das causas para o aumento de custos monetários cobrados aos usuários. Neste trabalho apresentamos uma ferramenta de implantação e execução de clusters Spark que utiliza o modelo de Infraestrutura como Serviço (IaaS). Os resultados obtidos a partir de diversos casos de uso apontam que a ferramenta proposta, comparada ao PaaS, é capaz de reduzir razoavelmente os custos de execução de aplicações Spark na nuvem.

Palavras-chave: Computação em Nuvem, Infraestrutura como Serviço, Plataforma como Serviço, Apache Spark

Referências

Campbell, R., Nunes, A. L., Boeres, C., and Drummond, L. M. A. (2022). MapReduce na AWS: Uma Análise de Custos Computacionais Utilizando os Serviços FaaS e IaaS. In Anais do XXIII Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2022), pages 145–156, Porto Alegre, RS, Brasil. SBC. DOI: 10.5753/wscad.2022.226308.

Foster, I. and Gannon, D. B. (2017). Cloud Computing for Science and Engineering. MIT Press, Cambridge, MA, USA.

Nunes, A. L., Melo, A., Boeres, C., de Oliveira, D., and Drummond, L. M. A. (2021). Towards Analyzing Computational Costs of Spark for SARS-CoV-2 Sequences Comparisons on a Commercial Cloud. In Anais do XXII Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2021), pages 192–203, Porto Alegre, RS, Brasil. SBC. DOI: 10.5753/wscad.2021.18523.

Nunes, A. L., Melo, A., Tadonki, C., Boeres, C., de Oliveira, D., and Drummond, L. M. A. (2023). Optimizing computational costs of Spark for SARS-CoV-2 sequences comparisons on a commercial cloud. Concurrency and Computation: Practice and Experience, page e7678. DOI: 10.1002/cpe.7678.

Yan, Y., Gao, Y., Chen, Y., Guo, Z., Chen, B., and Moscibroda, T. (2016). TR-Spark: Transient Computing for Big Data Analytics. 17th ACM SoCC, pages 484–496. DOI: 10.1145/2987550.2987576.

Zaharia, M., Xin, R. S., Wendell, P., Das, T., Armbrust, M., Dave, A., Meng, X., et al. (2016). Apache Spark: A Unified Engine for Big Data Processing. Communications of the ACM, 59(11):56–65. DOI: 10.1145/2934664.