Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real

  • Luan Félix Pimentel
  • Igor Lemos Vicente
  • Guilherme Dal Bianco

Resumo


A blocagem online de dados tem como propósito identificar registros que representam um mesmo objetivo em ambientes com fluxo contínuo de dados. A blocagem online deve ser capaz de processar volumes variados de informações, sem atrasos e com uma alta eficácia. Este trabalho, propõe uma ferramenta intitulada Redblock para a deduplicação de dados em tempo real. A ferramenta utiliza uma plataforma distribuída de processamento online em conjunto com um método de blocagem utilizando índice invertido. Na experimentação, Redblock demonstrou bons resultados preliminares em relação a sua eficácia em uma base de dados sintética.
Publicado
05/04/2017
PIMENTEL, Luan Félix; VICENTE, Igor Lemos; BIANCO, Guilherme Dal. Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 13. , 2017, Passo Fundo. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . ISSN 2595-413X.