Inclusão de Operadores Físicos de Junção por Similaridade em um SGBD Comercial

  • Guilherme Vasconcelos Universidade de São Paulo
  • Daniel Kaster Universidade Estadual de Londrina

Resumo


Dados complexos, como vídeo, imagem e áudio, requerem formas particularizadas de consulta, armazenamento e indexação que SGBDs comerciais ainda não provêm. Uma das formas dos SGBDs oferecerem suporte a dados complexos é estender operadores relacionais para representar consultas por similaridade. Consultas por similaridade recuperam dados baseando-se em relações de similaridade entre dados armazenados, que são derivadas do conteúdo intrínseco dos dados. Um tipo importante de consulta por similaridade é a junção por similaridade, que retorna pares de elementos de dois conjuntos de entrada que atendem à condição de junção definida, que pode ser, por exemplo, se são mais próximos do que um dado limiar (junção por abrangência) ou se um elemento é um dos k-vizinhos mais próximos do outro (junção k-NN). Algoritmos existentes para a execução de junções por similaridade essencialmente consideram que os conjuntos/relações de entrada são lidos diretamente do disco. Contudo, a junção é uma das operações mais custosas em uma consulta e por isso atrasá-la no plano de execução e efetuar a junção sobre dados filtrados em memória normalmente gera ganho de desempenho. Neste artigo são apresentados algoritmos de junção por abrangência desenvolvidos para operar sobre dados filtrados em um SGBD comercial. A proposta é permitir a execução de junções por similaridade em posições diferentes no plano de consulta e avaliar como algoritmos distintos comportam-se em situações variadas. Resultados apresentados mostram que as melhores opções desenvolvidas são o algoritmo estado-da-arte DBSimJoin para entradas com filtros altamente seletivos e um algoritmo de junção baseada em índice para consultas em que a seletividade de junção é alta e um índice apropriado está disponível.

Palavras-chave: Consultas por similaridade, algoritmos de junção, SGBDs comerciais

Referências

Rudolf, M. and Thomas, N., 2000. Optimum positioning of base stations for cellular radio networks. Wirel. Netw. 6, 6 (December 2000), 421-428.

OPEN SIGN. Cell Coverage Map. Available in:< http://opensignal.com/coverage-maps/Brasil/>.
Williams, E., and Asuquo, D. E. 2014. An Efficient Model for Reducing Soft Blocking Probability in Wireless Cellular Network. International Journal of Wireless & Mobile Networks, Chennai, (Aug 2014): 85-99.

Rodriguez, D. Z, Rosa, R. L. and Bressan, G. 2013. A billing system model for voice call service in cellular networks based on voice quality. in IEEE International Symposium on Consumer Electronics, Hsinchu, (Jun 2013), 89-90.

Pang, B., and Lee, L. 2008. Opinion mining and sentiment analysis. Found. Trends Inf. Retr., Now Publishers Inc., Hanover, MA, USA, v. 2, n. 1-2, (Jan 2008), 1–135.

Rosa, R. L., Rodriguez, D. Z. and Bressan, 2015. Music recommendation system based on user's sentiments extracted from social networks. in IEEE Transactions on Consumer Electronics, vol. 61, no. 3, (Aug. 2015), 359-367.

Musolesi, M., 2014. Big mobile data mining: good or evil?, IEEE Internet Computing, (2014), 2–5.

Jony, R. I., Habib, A., Mohammed, N. and Rony, R. I., 2015. Big Data Use Case Domains for Telecom Operators, in IEEE International Conference on Smart City /SocialCom /SustainCom (SmartCity), Chengdu, (2015), p. 850-855.

Zheng, K., Yang, Z., Zhang, K., Chatzimisios, P., Yang, K. and Xiang, W., 2016. Big data-driven optimization for mobile networks toward 5G," in IEEE Network, vol. 30, no. 1, (Jan 2016), 44-51.

Turney, P. D. 2002. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2002. (ACL ’02), 417–424.

Thelwall, M., Wilkinson, D., and Uppal, S. 2010. Data mining emotion in social network communication: Gender differences in myspace. J. Am. Soc. Inf. Sci. Technol., v. 61, 2010, 190–199.

Rosa, R. L., Rodriguez, D. Z. and Bressan, G., 2013. SentiMeter-Br: A Social Web Analysis Tool to Discover Consumers' Sentiment. IEEE International Conference on Mobile Data Management, Milan, Italy, (Mar. 2013), 122- 124.

Jamaa, S. B., Dubreil, H., Altman, Z. and A. Ortega ,A., 2005, Quality indicator matrices and their contribution to WCDMA network design, in IEEE Transactions on Vehicular Technology, vol. 54, no. 3, (May 2005), pp. 1114- 1121.

Silva, G. C., Gimenes, I. M. S., Fantinato, M., Toledo, M. B. F. (2012). Towards a Process for Negotiation of E-contracts Involving Web Services. In Simpósio Brasileiro de Sistemas de Informação: Trilhas Técnicas, v. 1. São Paulo – SP, Brazil, (May 2012), 267-278.
Publicado
17/05/2017
Como Citar

Selecione um Formato
VASCONCELOS, Guilherme; KASTER, Daniel. Inclusão de Operadores Físicos de Junção por Similaridade em um SGBD Comercial. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 13. , 2017, Lavras. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 472-479. DOI: https://doi.org/10.5753/sbsi.2017.6077.