Avaliação das estruturas de arquivo para processamento de dados sísmicos com alto desempenho na nuvem computacional
Resumo
As aplicações computacionais na área de sismologia processam dados até a ordem de centenas de terabytes e seus desempenhos podem ser fortemente afetados pelas operações de Leitura e Escrita. Este artigo generaliza as principais estruturas de arquivos para armazenamento de dados sı́smicos e avalia seus desempenhos. São apresentadas uma análise teórica do carregamento de dados na memória e uma análise de desempenho na nuvem computacional, utilizando diferentes tecnologias de armazenamento (HDD, SSD e EFS). A partir delas, obteve-se que a escolha adequada da estrutura de arquivo para um caso de uso tı́pico permite uma redução de até 193 vezes na quantidade de dados lidos. Observou-se também que a melhor estrutura avaliada desempenha até 139 vezes mais rapidamente do que a estrutura adotada pelo formato SEG-Y, usado como padrão pela Agência Nacional de Petróleo do Brasil. Por fim, nos experimentos com armazenamento em rede, concluiu-se que o uso de instâncias mais custosas, mas com maior capacidade de transmissão de dados, não traz benefı́cios significativos.
Referências
AWS (2016). AWS Storage Services Overview - Whitepaper. Acesso em: 05/08/2019.
AWS (2019). Amazon Web Service (AWS). Acesso em: 05/08/2019.
Barry, K., Cavers, D., and Kneale, C. (1975). Recommended standards for digital tape formats. Geophysics, 40(2):344–352.
Brandsberg-Dahl, S. (2017). High-performance computing for seismic imaging
Claerbout, J. (1991). Introduction to seplib and sep utility software. SEP-70: Stanford Exploration Project, 413:436.
Fomel, S., Sava, P., Vlad, I., Liu, Y., and Bashkardin, V. (2013). Madagascar: Opensource software project for multidimensional data analysis and reproducible computational experiments. Journal of Open Research Software.
IRIS/PASSCAL Data Group (2012). Introduction to Active Source Data Archiving Utilizing PH5 as the Archive Format. Technical Report 2012336, IRIS/PASSCAL Instrument Center.
J. Anderson, W.E. Farrell, K. G. J. G. H. S. (1990). Center for Seismic Studies version 3 database: Schema reference manual. Technical Report C90-01, Science Applications International Corp, Center for Seismic Studies.
John W. Stockwell, J. and Cohen, J. K. (2008). The New SU User’s Manual. Último acesso em: 05/08/2019.
Koziol, Q. and Editor Padua, D. (2011). HDF5, pages 827–833. Springer US, Boston, MA.
Krischer, L., Smith, J., Lei, W., Lefebvre, M., Ruan, Y., de Andrade, E. S., Podhorszki, N., Bozdağ, E., and Tromp, J. (2016). An Adaptable Seismic Data Format. Geophysical Journal International.
Li, Huailiang, T. X. S. T. H. M. J. e. C. J. (2017). An improved lossless group compression algorithm for seismic data in SEG-Y and MiniSEEDfile formats. Computers and Geosciences, pages 41 – 45.
Mayne, W. H. (1962). Common reflection point horizontal data stacking techniques. Geophysics, 27(6):927–938.
Nickerson, Bradford G., J. P. A. e. M. L. A. (1999). Data structures for fast searching of SEG-Y seismic data. Computers and Geosciences, pages 179 – 190.
Open University (2011). File:Seismic acquisition cartoon marine.jpg. Licença CC-BYSA-NC. Último acesso em: 18/08/2019.
Rubini, A. and Corbet, J. (2001). Linux device drivers. ”O’Reilly Media”.
Samet, H. (1984). The quadtree and related hierarchical data structures. ACM Computing Surveys (CSUR).
Tarantola, A. (1984). Inversion of seismic reflection data in the acoustic approximation. Geophysics, 49(8):1259–1266.
Yang, X., McLaughlin, K., and North, R. (2000). User’s Guide to the CMR Seismic/Hydroacoustic/Infrasonic Data Products.