O Efeito da Heterogeneidade no Desempenho de Sistemas Paralelos de Banco de Dados
Resumo
A enorme capacidade computacional provida pelas arquiteturas paralelas juntamente com a facilidade de se paralelizar as operações sobre bancos de dados relacionais incentivaram o desenvolvimento de sistemas paralelos de banco de dados. Além disso, o uso de microprocessadores de alto desempenho e baixo custo para a construção de máquinas paralelas torna esses sistemas muito competitivos quando comparados aos mainframes, até então a principal plataforma para grandes aplicações de banco de dados. No entanto, os sistemas paralelos apresentam alguns problemas que inibem o aproveitamento real de sua grande capacidade de processamento. Entre eles, encontra-se o data skew que se refere à dificuldade de se dividir igualmente o processamento de uma consulta entre os processadores do sistema, devido a características inerentes aos dados. O objetivo deste artigo é apresentar uma proposta de arquitetura, denominada heterogênea, e analisar, através de simulação, o seu desempenho na presença do problema de data skew.
Referências
Bitton, D.; Boral, H.; Dewitt, J. D.; Kevin, W. W. Parallel algorithms for the execution of relational database operations. ACM Transaction on Database Systems 8, 3(September 1983), pp 325-353.
Boral, H. et al. Prototyping BUBBA: A highly parallel database system. IEEE Transactions on Knowledge and Data Engineering 2, 1(March 1990), 4-24.
Dewitt, D.J.; Gray, J. Parallel database systems: The future of database processing or a passing fad? SIGMOD Record 19, 4(December 1990), 104-112.
DeWitt, D.; Gray, J. Parallel database systems: The future of high performance database systems. Communications of the ACM 35, 6(June 1992), 85-98.
Dewitt, D. et al. The Gamma database machine project. IEEE Transactions on Knowledge and Data Engineering 2, 1 (Mar. 1990),pp 44-62.
Heidelberger, P. A performance comparison of multimicro and mainframe database architetures. IEEE Transactions on Software Engineering 14, 4(April 1988), 522-531.
Hua, K.A.; Lee, C.; Peir, J. Interconnecting shared-everyting systems for efficient parallel Information Systems, Miami Beach. Florida, December 1991, pp 262-270.
Lakshmi. M.S.; Yu, P.S. Effectiveness of parallel joins. IEEE Transactions on Knowledge and Data Engineering 2, 4(December 1990), 410-424.
Menasce, D.; Almeida, V.A.F. Cost-performance analysis of heterogeneity in supercomputer architectures. Proceedings of Supercomputing'90, New York, November 1990, pp 169-177.
Mishra, P.; Eich, M. Join processing in relational databases. ACM Computing Surveys 24, 1(March 1992), 63-113.
Pirahesh, H.; Mohan, C.; Cheng, J.; Liu, T.S.; Selinger, P. Paralellism in relational data base systems: Architetural issues and design approaches. Proceedings of the Second International Symposium on Databases in Parallel and Distributed Systems, Dublin, Ireland, July 1990, pp 4-29.
Schneider, D.A.; DeWitt, D.J. A performance evaluation of four parallel join algorithms in a shared-nothing multiprocessor environment. Proceedings of the ACM SIGMOD International Conference on Management of Data, Portland, Oregon, June 1989, pp 110-121.
Stonebraker, M.M. The case for shared nothing. Database Engineering. 9,1 (1986).
Valduriez, P.; Gardarin, G. Join and semijoin algorithms for a multiprocessor database machine. ACM Transactions on Database Systems 9, 1(March 1984), 133-161.