Política de Armazenamento em uma Infraestrutura de Nuvens Federadas para Aplicações de Bioinformática
Resumo
Políticas de armazenamento são difíceis de serem implementadas para um ambiente de nuvens fede -radas, uma vez que existem muitos provedores componentes da federação com capacidades de armazenamento distintas que devem ser consideradas. Por outro lado, em Bioinformática, muitas ferramentas e bancos de dados necessitam de grandes volumes de recursos para processarem e armazenarem quantidades enormes de dados, que podem atingir facilmente terabytes de tamanho. Este trabalho trata do problema da política de armazenamento no BioNimbus, o qual é uma infraestrutura de nuvens federadas para aplicações de bioinformática. Neste contexto, este trabalho propõe uma política de armazenamento, chamada ZooClouS (ZooNimbus Cloud Storage), que se baseia na latência, no custo, no uptime e no espaço livre de armazenamento para realizar uma escolha que distribui eficientemente os arquivos para os melhores recursos disponíveis na nuvem federada. Os experimentos foram realizados com dados biológicos reais, os quais foram executados em uma federação de nuvens constituídas com as nuvens da Amazon EC2, do Windows Azure e da Universidade de Brasília (UnB). Os resultados obtidos mostram que o ZooClouS conseguiu uma melhoria significativa no tempo de makespan das aplicações de Bioinformática executadas, quando comparado com a política de armazenamento aleatória que estava implementada no BioNimbus.
Referências
C. A. L. Borges, Hugo Saldanha, Edward de Oliveira Ribeiro, Maristela Holanda, Aleteia Araujo, and Maria Emilia M. T. Walter. Task scheduling in a federated cloud infrastructure for bioinformatics applications. In Frank Leymann, Ivan Ivanov, Marten van Sinderen, and Tony Shan, editors, CLOSER, pages 114–120. SciTePress, 2012.
R. Buyya, R. Ranjan, and R. N. Calheiros. Intercloud: utility-oriented federation of cloud computing environments for scaling of application services. In Proceedings of the 10th international conference on Algorithms and Architectures for Parallel Processing - Volume Part I, ICA3PP’10, pages 13–31, Berlin, Heidelberg, 2010. Springer-Verlag.
R. Buyya, C. S. Yeo, S. Venugopal, J. Broberg, and I. Brandic. Cloud computing and emerging it platforms: Vision, hype, and reality for delivering computing as the 5th utility. Future Gener. Comput. Syst., 25(6):599–616, jun. 2009.
Microsoft Corporation. Windows azure. http://www.windowsazure.com/pt-br/pricing/free-trial/, 2012.
Douglas Crockford. Json). http://json.org/, 2012.
Apache Software Foundation. Apache avro). http://avro.apache.org/, 2012.
Apache Software Foundation. Apache hadoop). http://hadoop.apache.org/, 2012.
The Apache Software Foundation. Apache zookeeper. http://zookeeper.apache.org/, 2010.
Google. Google app engine. https://developers.google.com/appengine/docs/whatisgoogleappengine?hl=pt-br, 2013.
JCraft. Pure implementation of sftp for java. http://www.jcraft.com/jsch/examples/Sftp.java.html, 2012.
B. Langmead, C. Trapnell, M. Pop, and S. Salzberg. Ultrafast and memory-eficient alignment of short dna sequences to the human genome, 2009.
Kwei-Jay Lin and J.D. Gannon. Atomic remote procedure call. Software Engineering, IEEE Transactions on, SE- 11(10):1126–1135, 1985.
Amazon Web Services LLC. Amazon elastic compute cloud (EC2). http://aws.amazon.com/pt/ec2/, 2012.
Petar Maymounkov and David Mazières. Kademlia: A peer-to-peer information system based on the xor metric. In Revised Papers from the First International Workshop on Peer-to-Peer Systems, IPTPS ’01, pages 53–65, London, UK, UK, 2002. Springer-Verlag.
U.S. National Library of Medicine. National center for biotechnology information. http://www.ncbi.nlm.nih.gov/, 2013.
B. P. Rimal, C. Eunmi, and I. Lumb. A taxonomy and survey of cloud computing systems. In INC, IMS and IDC, 2009. NCM ’09. Fifth International Joint Conference on, pages 44–51, aug. 2009.
S. Sohail, Sanjay Jha, and H. ElGindy. Parallelized file transfer protocol (p-ftp). In Local Computer Networks, 2003. LCN ’03. Proceedings. 28th Annual IEEE International Conference on, pages 624–631, 2003.
H. Verespej and J. Pasquale. A characterization of node uptime distributions in the planetlab test bed. In Reliable Distributed Systems (SRDS), 2011 30th IEEE Symposium on, pages 203–208, 2011.
Ren Xun-Yi and Ma Xiao-Dong. A* algorithm based optimization for cloud storage. JDCTA, 4(8):203–208, 2010.