Avaliação Experimental de Detectores de Erros em Conjuntos de Dados Relacionais
Resumo
A limpeza de dados é crucial para evitar inconsistências nos dados. Um dos seus passos fundamentais é a detecção de erros. Existem muitos métodos e sistemas para detectar erros. No entanto, as comparações entre essas opções são limitadas e geralmente usam conjuntos de dados heterogêneos. Este estudo avalia diferentes ferramentas disponíveis publicamente, considerando cenários variados, em um ambiente controlado e homogêneo. Os resultados mostram que ferramentas baseadas em aprendizado de máquina têm melhor desempenho na detecção de erros em comparação com métodos mais antigos. No entanto, essa vantagem é significativa apenas quando a taxa de erros é relativamente alta.
Palavras-chave:
Detecção de erros, Avaliação experimental, Limpeza de dados
Referências
Abedjan, Z., Chu, X., Deng, D., Fernandez, R. C., Ilyas, I. F., Ouzzani, M., Papotti, P., Stonebraker, M., and Tang, N. (2016). Detecting data errors: Where are we and what needs to be done? PVLDB, 9(12):993–1004.
Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., and Santoro, D. (2015). Messing up with BART: error generation for evaluating data-cleaning algorithms. PVLDB, 9(2):36–47.
Ilyas, I. F. and Chu, X. (2019). Data Cleaning. Association for Computing Machinery, New York, NY, USA.
Mahdavi, M., Abedjan, Z., Castro Fernandez, R., Madden, S., Ouzzani, M., Stonebraker, M., and Tang, N. (2019). Raha: A configuration-free error detection system. In ICDE, pages 865–882.
Mariet, Z., Harding, R., Madden, S., et al. (2016). Outlier detection in heterogeneous datasets using automatic tuple expansion. Technical report, MIT CSAIL.
Neutatz, F., Mahdavi, M., and Abedjan, Z. (2019). ED2: A case for active learning in error detection. In CIKM, pages 2249–2252.
Rekatsinas, T., Chu, X., Ilyas, I. F., and Ré, C. (2017). Holoclean: Holistic data repairs with probabilistic inference. PVLDB, 10(11):1190–1201.
Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., and Santoro, D. (2015). Messing up with BART: error generation for evaluating data-cleaning algorithms. PVLDB, 9(2):36–47.
Ilyas, I. F. and Chu, X. (2019). Data Cleaning. Association for Computing Machinery, New York, NY, USA.
Mahdavi, M., Abedjan, Z., Castro Fernandez, R., Madden, S., Ouzzani, M., Stonebraker, M., and Tang, N. (2019). Raha: A configuration-free error detection system. In ICDE, pages 865–882.
Mariet, Z., Harding, R., Madden, S., et al. (2016). Outlier detection in heterogeneous datasets using automatic tuple expansion. Technical report, MIT CSAIL.
Neutatz, F., Mahdavi, M., and Abedjan, Z. (2019). ED2: A case for active learning in error detection. In CIKM, pages 2249–2252.
Rekatsinas, T., Chu, X., Ilyas, I. F., and Ré, C. (2017). Holoclean: Holistic data repairs with probabilistic inference. PVLDB, 10(11):1190–1201.
Publicado
25/09/2023
Como Citar
MEDINA, William G. R.; PENA, Eduardo H. M.; KASTER, Daniel S..
Avaliação Experimental de Detectores de Erros em Conjuntos de Dados Relacionais. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 38. , 2023, Belo Horizonte/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2023
.
p. 342-347.
ISSN 2763-8979.
DOI: https://doi.org/10.5753/sbbd.2023.233429.