Verificação da Reprodução de Workflows Científicos por meio de Algoritmos de Detecção de Plágio

  • Filipe Tadeu Santiago UFF
  • Daniel de Oliveira UFF

Resumo


Atualmente, diversos experimentos científicos são realizados por intermédio de simulações computacionais. Além da especificação, execução e monitoramento desses experimentos, um dos principais desafios da comunidade científica é como podemos verificar a reprodução de tais experimentos. Para que um experimento possa ser classificado como científico, seus resultados devem ser passíveis de reprodução por terceiros em condições similares. Em experimentos modelados como workflows científicos e executados em sistemas de gerência de workflows científicos, os dados de proveniência capturados são capazes de descrever tanto a especificação do workflow quanto o histórico da execução do mesmo. Dessa forma, esses dados oferecerem a base para verificar se uma determinada execução de um experimento é a reprodução de uma execução anterior. Entretanto, como comparar os dados de proveniência de execuções distintas de workflows não é uma tarefa trivial. Para verificar a reprodução desses workflows, nesse artigo fazemos uso de algoritmos de detecção de plágio. Tais algoritmos são capazes de verificar a semelhança entre execuções bastando ter acesso à base de proveniência prospectiva e retrospectiva do experimento.

Referências

E. Deelman, D. Gannon, M. Shields, and I. Taylor, “Workflows and e-Science: An overview of workflow system features and capabilities,” Future Generation Computer Systems, vol. 25, no. 5, pp. 528 – 540, 2009.

Y. Gil, E. Deelman, M. Ellisman, T. Fahringer, G. Fox, D. Gannon, C. Goble, M. Livny, L. Moreau, and J. Myers, “Examining the Challenges of Scientific Workflows,” Computer, vol. 40, no. 12, pp. 24–32, 2007.

J. Freire, D. Koop, E. Santos, and C. T. Silva, “Provenance for Computational Tasks: A Survey,”Computing in Science and Engineering, vol. 10, pp. 11–21, May 2008.

C. Goble, “The Reality of Reproducibility in Computational Science,” Fapesp, May-2013. [Online]. Available: http://www.fapesp.br/eventos/2013/05/escience/Goble.pdf. [Accessed: 27-Jan-2014].

A. M. E. T. Ali, H. M. D. Abdulla, and V. Snasel, “Survey of Plagiarism Detection Methods,” in 2011 Fifth Asia Modelling Symposium, 2011, pp. 39–42.

D. Oliveira, E. Ogasawara, F. Baião, and M. Mattoso, “SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows,” in International Conference on Cloud Computing, Washington, DC, USA, 2010, pp. 378–385.

S. M. zu Eissen and B. Stein, “Advances in Information Retrieval: 28th European Conference on IR Research, ECIR 2006, London, UK, April 10-12, 2006. Proceedings,” M. Lalmas, A. MacFarlane, S. Rüger, A. Tombros, T. Tsikrika, and A. Yavlinsky, Eds. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006, pp. 565–569.

W. B. Cavnar, “Using An N-Gram-Based Document Representation With A Vector Processing Retrieval Model.,” in TREC, 1994.

S. Schleimer, D. S. Wilkerson, and A. Aiken, “Winnowing: Local Algorithms for Document Fingerprinting,” in Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, New York, NY, USA, 2003, pp. 76–85.

W. Oliveira, D. Oliveira, and V. Braganholo, “Experiencing PROV-Wf for Provenance Interoperability in SWfMSs,” in IPAW, Cologne, German, 2014, pp. 294–296.

K. A. C. S. Ocaña, D. de Oliveira, E. Ogasawara, A. M. R. Dávila, A. A. B. Lima, and M. Mattoso, “SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes,” in Advances in Bioinformatics and Computational Biology, 2011, pp. 66–70.

F. Chirigati, D. Shasha, and J. Freire, “ReproZip: Using Provenance to Support Computational Reproducibility,” in Proceedings of the 5th USENIX Conference on Theory and Practice of Provenance, Berkeley, CA, USA, 2013, pp. 1–4.

Z. Bao, S. Cohen-Boulakia, S. B. Davidson, A. Eyal, and S. Khanna, “Differencing Provenance in Scientific Workflows,” in IEEE International Conference on Data Engineering, 2009, pp. 808–819.
Publicado
04/07/2016
SANTIAGO, Filipe Tadeu; DE OLIVEIRA, Daniel. Verificação da Reprodução de Workflows Científicos por meio de Algoritmos de Detecção de Plágio. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 10. , 2016, Porto Alegre. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2016 . p. 245-252. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2016.9973.