Aplicação de Árvores de Decisão para Recomendação de Parâmetros em Workflows Científicos

  • Renan Câmara UFF
  • Aline Paes UFF
  • Daniel de Oliveira UFF

Resumo


Diversos experimentos de larga escala modelados como workflows científicos podem executar em paralelo por diversos dias ou semanas em ambientes de alto desempenho. O tempo de execução é determinado por fatores como o volume de dados de entrada, a quantidade de parâmetros explorados, etc. Assim, se torna importante para o cientista que as execuções de workflows que não produzem resultados satisfatórios ou que produzem resultados com erros sejam reduzidas ao máximo. Estimar quais execuções irão falhar (ou não) é um problema importante, porém em aberto. De forma a reduzir esse problema, propomos um mecanismo de recomendação de parâmetros para workflows baseado em algoritmos de mineração de dados para que o cientista possa configurar seu workflow da melhor forma possível (e.x., para evitar erros) antes da execução propriamente dita.

Palavras-chave: a

Referências

Altintas, I., Berkley, C., Jaeger, E., Jones, M., 2004. Kepler: An Extensible System for Design and Execution of Scientific Workflows.

Costa, F., Silva, V., de Oliveira, D., Ocaña, K., Ogasawara, E., Dias, J., Mattoso, M., 2013. Capturing and Querying Workflow Runtime Provenance with PROV: A Practical Approach, in: Proceedings of the EDBT 2013, New York, NY, USA, pp. 282–289.

Ellkvist, T., Koop, D., Anderson, E.W., Freire, J., Silva, C., 2008. Using Provenance to Support Real- Time Collaborative Design of Workflows, in: IPAW 2008, Salt Lake City, UT, USA, LNCS. Springer-Verlag, pp. 266–279.

Freire, J., Koop, D., Santos, E., Silva, C.T., 2008. Provenance for Computational Tasks: A Survey. Computing in Science Engineering 10, 11–21.

Groth, P., Moreau, L., 2013. W3C PROV - An Overview of the PROV Family of Documents [WWW Document]. URL http://www.w3.org/TR/2013/ NOTE-prov-overview-20130430

Han, J., Kamber, M., Pei, J., 2011. Data Mining: Concepts and Techniques, Third Edition, 3rd ed. Morgan Kaufmann.

Jacob, J.C., Katz, D.S., Berriman, G.B., Good, J.C., Laity, A.C., Deelman, E., Kesselman, C., Singh, G., Su, M.-H.,Prince, T.A., Williams, R., 2009. Montage: a grid portal and software toolkit for sciencegrade astronomical image mosaicking. International Journal of Computational Science and Engineering (IJCSE) 4, 73–87.

Koop, D., Scheidegger, C.E., Callahan, S.P., Freire, J., Silva, C.T., 2008. VisComplete: Automating Suggestions for Visualization Pipelines. IEEE Transactions on Visualization and Computer Graphics 14, 1691–1698.

Mattoso, M., Werner, C., Travassos, G.H., Braganholo, V., Ogasawara, E., Oliveira, D.D., Cruz, S.M.S.D., Martinho, W., Murta, L., 2010. Towards supporting the life cycle of large scale scientific experiments. International Journal of Business Process Integration and Management 5, 79.

McDowall, J., Kerschberg, L., 2012. Agent Negotiation Strategies for Composing Service Workflows, in: 2012 IEEE 28th International Conference on Data Engineering Workshops (ICDEW).

Ocaña, K.A.C.S., Oliveira, D. de, Ogasawara, E., Dávila, A.M.R., Lima, A.A.B., Mattoso, M., 2011. SciPhy: A CloudBased Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes, Simpósio Brasileiro de Bioinformática, 2011

Telles, G.P., Palakal, M. (Eds.), Advances in Bioinformatics and Computational Biology, Lecture Notes in Computer Science. Springer Berlin Heidelberg, pp. 66–70.

Ogasawara, E., Dias, J., Oliveira, D., Porto, F., Valduriez, P., Mattoso, M., 2011. An Algebraic Approach for DataCentric Scientific Workflows. Proceedings of the 37th International Conference on Very Large Data Bases (PVLDB) 4, 1328–1339.

Oliveira, D., Ogasawara, E., Baião, F., Mattoso, M., 2010. SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows, in: Proceedings of the 3rd International Conference on Cloud Computing, CLOUD ’10. IEEE Computer Society, Washington, DC, USA.

Oliveira, F., Murta, L., Werner, C., Mattoso, M., 2008. Using Provenance to Improve Workflow Design, in: IPAW. Salt Lake City, UT, USA, pp. 136 – 143.

Oliveira, W., Oliveira, D., Braganholo, V., 2014. Experiencing PROV-Wf for Provenance Interoperability in SWfMSs, in: IPAW. Cologne, German.

Wozniak, J.M., Armstrong, T.G., Wilde, M., Katz, D.S., Lusk, E., Foster, I.T., 2013. Swift/T: Large-Scale Application Composition via Distributed-Memory Dataflow Processing, in: Proceedings of the 13th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid). IEEE, pp. 95–102.

Yeo, P., Abidi, S.S.R., 2013. Dataflow Oriented Similarity Matching for Scientific Workflows, in: Parallel and Distributed Processing Symposium Workshops PhD Forum (IPDPSW), 2013 IEEE 27th International.

Zeng, R., He, X., Aalst, W.M.P. van der, 2011. A Method to Mine Workflows from Provenance for Assisting Scientific Workflow Composition, in: 2014 IEEE World Congress on Services. IEEE Computer Society, Los Alamitos, CA, USA.
Publicado
26/08/2015
CÂMARA, Renan; PAES, Aline; DE OLIVEIRA, Daniel. Aplicação de Árvores de Decisão para Recomendação de Parâmetros em Workflows Científicos. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 9. , 2015, Recife. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 11-20. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2015.7202.