Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Intensivos em Dados

  • Elaine Naomi Watanabe Universidade de São Paulo
  • Kelly Rosa Braghetto Universidade de São Paulo

Resumo


Aplicações que analisam grandes volumes de dados costumam ser modeladas como atividades interligadas (workflows) e executadas em plataformas de alto desempenho. O particionamento e replicação de dados podem tornar as atividades paralelizáveis, mas definir um modelo que faça o uso eficiente da plataforma não é trivial. Este trabalho propõe anotações semânticas para caracterizar o tipo de processamento de dados feito em atividades de workflows e assim criar automaticamente estratégias para paralelizar a execução. Em experimentos com um workflow que manipula 5,8 milhões de objetos de dados em um sistema NoSQL, a paralelização obtida das anotações reduziu em 88,4% o tempo de execução do workflow e em 10,4% o custo monetário.
Palavras-chave: Anotações semânticas, Paralelismo em workflows

Referências

Dean, J. and Ghemawat, S. (2010). MapReduce: a flexible data processing tool. In Communications of the ACM, volume 53, pages 72–77. ACM.

Ferreira, G. R. et al. (2014). Uso de SGBDs NoSQL na gerência da proveniência distribuída em workflows científicos. In The 29th Brazilian Symposium on Databases.

Ogasawara, E. et al. (2011). An algebraic approach for data-centric scientific workflows. In The VLDB Endowment, volume 4, pages 1328–1339.

Pautasso, C. and Alonso, G. (2006). Parallel computing patterns for grid workflows. In The 6th Workshop on Workflows in Support of Large-Scale Science, pages 1–10.

Singh, G. et al. (2008). Workflow task clustering for best effort systems with pegasus. In The 15th ACM Mardi Gras Conference, pages 9:1–9:8.
Publicado
04/10/2016
WATANABE, Elaine Naomi; BRAGHETTO, Kelly Rosa. Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Intensivos em Dados. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 31. , 2016, Salvador/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2016 . p. 271-276. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2016.24340.