SEREIA - Busca por Palavras-Chave em Document Stores

  • Ariel Afonso Universidade Federal do Amazonas (UFAM)
  • Paulo Martins Universidade Federal do Amazonas (UFAM)
  • Altigran da Silva Universidade Federal do Amazonas (UFAM) http://orcid.org/0000-0002-8992-495X

Resumo


Gerenciadores de documentos (GDs) ou document stores, como MongoDB e CouchDB, têm se tornado cada vez mais populares devido à flexibilidade em carregar e recuperar dados em larga escala usando documentos semi-estruturados, pois evitam a necessidade de definição de esquemas antes da ingestão de dados. Por outro lado, especificar consultas neste tipo de sistema é uma tarefa complexa, ainda mais que em sistemas relacionais, devido à natureza semi-estruturada dos documentos e à possibilidade de aninhar itens de dados complexos. Para lidar com esse problema, apresentamos uma abordagem chamada SEREIA, que permite a execução de consultas por palavras-chave sobre coleções de documentos armazenados em GDs sem necessidade de conhecimento da estrutura das coleções. Nossa abordagem é baseada na geração de Candidate Join Networks que representam diferentes interpretações da consulta fornecida, a fim de ranqueá-las e escolher a alternativa mais adequada. Experimentos realizados em um banco de dados representativo, contendo diversas coleções de documentos, mostram que nossa abordagem foi eficaz em gerar consultas estruturadas que satisfazem a intenção original do usuário expressa na consulta por palavras-chave, alcançando valores de Precisão e MRR de 1.0 e 0.98, respectivamente.

Palavras-chave: busca por palavras-chave, gerenciadores de documentos

Referências

Baeza-Yates and Ribeiro-Neto (2011). Modern Information Retrieval, Second Edition. Pearson Education.

Bhalotia et al. (2002). Keyword searching and browsing in databases using banks. In Proc. of 18th Intl. Conf. on Data Engineering, pages 431–440.

Chasseur et al. (2013). Enabling json document stores in relational systems. In Proc. of the 16th Intl. Workshop on the Web and Databases, volume 13, pages 1–6.

DiScala and Abadi (2016). Automatic generation of normalized relational schemas from nested key-value data. In Proc. of the 2016 Intl. Conf. on Management of Data.

Hristidis and Papakonstantinou (2002). Discover: Keyword search in relational databases. In VLDB’02: Proc. of the 28th Intl. Conf. on Very Large Databases, pages 670–681.

Li and Jagadish (2014). Nalir: an interactive natural language interface for querying relational databases. In Proc. of the 2014 ACM SIGMOD Intl. Conf. on Management of Data, pages 709–712.

Liu et al. (2014). Json data management: supporting schema-less development in rdbms. In Proc. of the 2014 ACM SIGMOD Intl. Conf. on Management of Data.

Liu et al. (2016). Closing the functional and performance gap between sql and nosql. In Proc. of the 2016 Intl. Conf. on Management of Data, pages 227–238.

Oliveira et al. (2015). Ranking candidate networks of relations to improve keyword search over relational databases. In 2015 IEEE 31st Intl. Conf, on Data Engineering, pages 399–410.

Oliveira et al. (2018). Match-based candidate network generation for keyword queries over relational databases. In 2018 IEEE 34th Intl. Conf. on Data Engineering (ICDE), pages 1344–1347.

Oliveira et al. (2020). Efficient match-based candidate network generation for keyword queries over relational databases. IEEE Trans. on Knowledge and Data Engineering.

Sadalage and Fowler (2012). Nosql distilled: A brief guide to the emerging world of polyglot persistence (2012). 13:978–0321826626.

Tahara et al. (2014). Sinew: a sql system for multi-structured data. In Proc. of the 2014 ACM SIGMOD Intl. Conf. on Management of Data, pages 815–826.

Yaghmazadeh et al. (2017). Sqlizer: Query synthesis from natural language. Proc. ACM Program. Lang., (OOPSLA):1–26.
Publicado
04/10/2021
AFONSO, Ariel; MARTINS, Paulo; DA SILVA, Altigran. SEREIA - Busca por Palavras-Chave em Document Stores. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 36. , 2021, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 133-144. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2021.17872.