Gerenciadores de Dados Biológicos: Genéricos ou Ad-hoc?

  • Sérgio Lifschitz PUC-Rio

Resumo


A necessidade de eficiência no gerenciamento de dados biológicos traz novos rumos e desafios para as pesquisas em sistemas de bancos de dados. Neste artigo discute-se a oportunidade de construção de gerenciadores de dados específicos para a área de biologia computacional e afins. São necessárias muitas adaptações para que o uso de sistemas relacionais ou baseados em modelos de dados conhecidos seja eficaz. Nesse artigo discute-se a viabilidade de um SGBD ad-hoc para dar suporte adequado à gestão e acesso de dados biológicos. São apresentadas as abordagens correntes baseadas em extens ões de SGBDs existentes e discute-se algumas das estratégias particulares, propostas ou em desenvolvimento, para lidar com esta nova área de aplicação.

Referências

(2003). 14th International Workshop on Database and Expert Systems Applications (DEXA’03), September 1-5, 2003, Prague, Czech Republic. IEEE Computer Society.

(2007). CIDR 2007, Third Biennial Conference on Innovative Data Systems Research, Asilomar, CA, USA, January 7-10, 2007, Online Proceedings. [link].

Adleman, L. M. (1994). Molecular computation of solutions to combinatorial problems. Science, 266:1021–1024.

Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. (1990). Basic local alignment search tool. J Molecular Biology, 215(3):403–410.

Bell, G., Gray, J., and Szalay, A. S. (2006). Petascale computational systems. IEEE Computer, 39(1):110–112.

Buneman, P., Khanna, S., Tajima, K., and Tan, W. C. (2004). Archiving scientific data. ACM Trans. Database Syst., 29:2–42.

Carvalho, P. C., Glória, R. V., de Miranda, A. B., and Degrave, W. M. (2005). Squid - a simple bioinformatics grid. BMC Bioinformatics, 6:197.

Chen, J. Y. and Carlis, J. V. (2003). Similar join: Extending dbms with a bio-specific operator. In SAC, pages 109–114. ACM.

Chen, J. Y., Carlis, J. V., and Gao, N. (2005). A complex biological database querying method. In SAC, pages 110–114. ACM.

de Carvalho Costa, R. L. (2002). Alocação de dados e distribuição de carga para execução paralela da estratégia blast de comparação de sequência. Master’s thesis, Departamento de Informática da PUC-Rio.

de Carvalho Costa, R. L. and Lifschitz, S. (2003). Database allocation strategies for parallel blast evaluation on clusters. Distributed and Parallel Databases, 13(1):99–127.

de Macêdo, J. A. F. (2005). Um Modelo Conceitual para Biologia Molecular. PhD thesis, Departamento de Informática da PUC-Rio.

de Macêdo, J. A. F., Porto, F., Lifschitz, S., and Picouet, P. (2007). Dealing with some conceptual data model requirements for biological domains. In AINA Workshops. IEEE Computer Society.

de Noronha, M. F. (2006). Implementação e avaliação de desempenho de um driver para gerência de e/s em aplicações de bioinformática. Master’s thesis, Departamento de Informática da PUC-Rio.

Eltabakh, M. Y., Ouzzani, M., and Aref, W. G. (2007). Bdbms - a database management system for biological data. In [DBL 2007], pages 196–206.

Howe, B., Maier, D., and Bright, L. (2007). Smoothing the roi curve for scientific data management applications. In [DBL 2007], pages 185–195.

Hsiao, R.-L., Jr., D. S. P., and chih Yang, H. (2005). Support for bioindexing in blastgres. In DILS, volume 3615 of Lecture Notes in Computer Science, pages 284–287. Springer.

Hunt, E., Atkinson, M. P., and Irving, R. W. (2002). Database indexing for large dna and protein sequence collections. VLDB Journal, 11(3):256–271.

Jagadish, H. V. and Olken, F. (2004). Database management for life sciences research. SIGMOD Record, 33(2):15–20.

Lemos, M. (2004). Workflow para Bioinformática. PhD thesis, Departamento de Informática da PUC-Rio.

Lemos, M. and Lifschitz, S. (2003). A study of a multi-ring buffer management for blast. In [DBL 2003], pages 5–9.

Lemos, M., Seibel, L. F. B., and Casanova, M. A. (2003). Bionotes: A system for biosequence annotation. In [DBL 2003], pages 16–20.

Lifschitz, S. and Mauro, R. C. (2005). An i/o device driver for bioinformatics tools: the case for blast. Genetics and Molecular Research (GMR), 4(1):563–570.

Neteler, M. and Mitásová, H. (2002). Open Source GIS: A GRASS GIS Approach. Kluwer.

Paton, N. W. and Goble, C. A. (2001). Information management for genome level bioinformatics. In VLDB 2001. Morgan Kaufmann.

Poess, M. and Othayoth, R. (2005). Large scale data warehouses on grid: Oracle database 10g and hp proliant systems. In VLDB 2005, pages 1055–1066. ACM.

Rosa, J. O. M. (2006). Estruturas de armazenamento e persistência de seqüências e dados biológicos. Master’s thesis, Departamento de Informática da PUC-Rio.

Seibel, L. F. B. (2002). BioAXS: Uma Arquitetura para Integração de Fontes de Dados e Aplicações da Biologia Molecular. PhD thesis, Departamento de Informática da PUC-Rio.

Seibel, L. F. B., de Macêdo, J. A. F., Lemos, M., Lifschitz, S., de Miranda, A. B., Alves, M., and Degrave, W. M. (2003). A conceptual model for molecular biology information. In WOB, pages 47–56.

Seibel, L. F. B. and Lifschitz, S. (2001). A genome databases framework. In DEXA, volume 2113 of Lecture Notes in Computer Science, pages 319–329. Springer.

Seibel, L. F. B. and Lifschitz, S. (2002). An overview of genomic databases research issues. In SBBD, page 10. UFRGS.

Silberschatz, A., Korth, H. F., and Sudarshan, S. (2005). Database System Concepts, 5th Edition. McGraw-Hill Book Company.

Sinha, R. R., Termehchy, A., Mitra, S., and Winslett, M. (2007). Maitri demonstration: Managing large scale scientific data (demo). In [DBL 2007], pages 219–224.

Sousa, D. X. (2007). Balanceamento de carga com bancos de dados de sequências genômicas com partições replicadas. Master’s thesis, Departamento de Informática da PUC-Rio. (previsão de defesa).

Tata, S., Patel, J. M., Friedman, J. S., and Swaroop, A. (2006). Declarative querying for biological sequences. In ICDE, page 87. IEEE Computer Society.

Topaloglou, T., Davidson, S. B., Jagadish, H. V., Markowitz, V. M., Steeg, E. W., and Tyers, M. (2004). Biological data management: Research, practice and opportunities. In VLDB, pages 1233–1236. Morgan Kaufmann.

Wong, R. K., Lam, F., Graham, S., and Shui, W. M. (2000). An xml repository for molecular sequence data. In BIBE, pages 35–42.
Publicado
30/06/2007
LIFSCHITZ, Sérgio. Gerenciadores de Dados Biológicos: Genéricos ou Ad-hoc?. In: SEMINÁRIO INTEGRADO DE SOFTWARE E HARDWARE (SEMISH), 34. , 2007, Rio de Janeiro/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2007 . p. 2085-2099. ISSN 2595-6205.