Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real
Resumo
A blocagem online de dados tem como propósito identificar registros que representam um mesmo objetivo em ambientes com fluxo contínuo de dados. A blocagem online deve ser capaz de processar volumes variados de informações, sem atrasos e com uma alta eficácia. Este trabalho, propõe uma ferramenta intitulada Redblock para a deduplicação de dados em tempo real. A ferramenta utiliza uma plataforma distribuída de processamento online em conjunto com um método de blocagem utilizando índice invertido. Na experimentação, Redblock demonstrou bons resultados preliminares em relação a sua eficácia em uma base de dados sintética.
Publicado
05/04/2017
Como Citar
PIMENTEL, Luan Félix; VICENTE, Igor Lemos; BIANCO, Guilherme Dal.
Redblock: Uma ferramenta para a deduplicação de grandes bases de dados em tempo real. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 13. , 2017, Passo Fundo.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2017
.
ISSN 2595-413X.