Detecção e Aplicação de Dependências de Dados

Eduardo Henrique Monteiro Pena; Eduardo Cunha de Almeida

doi:10.5753/sbbd_estendido.2021.18183

Eduardo Henrique Monteiro Pena Universidade Federal do Paraná (UFPR)
Eduardo Cunha de Almeida Universidade Federal do Paraná (UFPR) https://orcid.org/0000-0002-6644-956X

DOI: https://doi.org/10.5753/sbbd_estendido.2021.18183

Resumo

Dependências de dados são fundamentais em importantes áreas do gerenciamento de dados, tais como qualidade, integração e análise de dados. Esta tese apresenta contribuições relevantes para importantes problemas relacionados à tais dependências. O primeiro é relacionado à detecção de dependências. Estudamos a detecção de restrições de negação, pois elas generalizam outros tipos de dependências, e conseguem expressar complexas regras de qualidade de dados. Apresentamos um algoritmo para a descoberta de restrições de negação e o avaliamos em uma variedade de cenários. Em comparação com soluções do estado da arte, nosso algoritmo melhora significativamente a eficiência da detecção em termos de tempo de execução. O segundo problema diz respeito à aplicação de dependências na melhoria da consistência de dados. Mostramos que é possível extrair evidências de conjuntos de dados para descobrir restrições que se mantêm aproximadamente e que identificam, com boa precisão e recuperação, inconsistências no conjunto de dados de entrada. Apresentamos, ainda, um sistema para detecção de erros baseados em restrições de negação que apresenta execuções até três ordens de magnitude mais rápidas do que as de soluções do estado da arte, especialmente para conjuntos de dados maiores e restrições complexas. Por fim, nossa última contribuição é sobre a aplicação de dependências na otimização de consultas. Apresentamos um sistema para a detecção e seleção automática de dependências funcionais baseado em representações extraídas das cargas de trabalho. Nossos experimentos mostram que a aplicação das dependências selecionadas pode reduzir o tempo de resposta geral de diversas consultas. As contribuições acima foram publicadas em veículos de renome nacional (SBBD) e internacional (PVLDB, CIKM e DEXA), e possibilitaram cooperação nacional com universidades federais (UFPR e UTFPR), bem como internacional com institutos de pesquisa (HPI-Alemanha e SnT-Luxemburgo).

Palavras-chave: dependência de dados, detecção de dependências, restrições de negação

Referências

Abedjan, Z., Golab, L., and Naumann, F. (2015). Profiling relational data: A survey. The VLDB Journal, 24(4):557–581.

Abiteboul, S., Hull, R., and Vianu, V. (1995). Foundations of Databases. Addison-Wesley.

Chu, X., Ilyas, I. F., and Papotti, P. (2013). Holistic data cleaning: Putting violations into context. pages 458–469.

Kimura, H., Huo, G., Rasin, A., Madden, S., and Zdonik, S. B. (2009). Correlation maps: A compressed access method for exploiting soft functional dependencies. Proc. VLDB Endow., 2(1):1222–1233.

Liu, J., Li, J., Liu, C., and Chen, Y. (2012). Discover dependencies from data - a review. IEEE TKDE, 24(2):251–264.

Papenbrock, T., Ehrlich, J., Marten, J., Neubert, T., Rudolph, J.-P., Schönberg, M., Zwiener, J., and Naumann, F. (2015). Functional dependency discovery: An experimental evaluation of seven algorithms. PVLDB., 8(10):1082–1093.

Pena, E. H. M. (2018). Workload-aware discovery of integrity constraints for data cleaning. In VLDB 2018 - PhD Workshop, volume 2175.

Pena, E. H. M. and de Almeida, E. C. (2018). Bfastdc: A bitwise algorithm for mining denial constraints. In Database and Expert Systems Applications (DEXA), pages 53–68, Cham. Springer International Publishing.

Pena, E. H. M. and de Almeida, E. C. (2019). Short paper: Descoberta automática de restrições de negação confiáveis. In XXXIV Simpósio Brasileiro de Banco de Dados, SBBD 2019, Fortaleza, CE, Brazil, October 7-10, 2019, pages 187–192. SBC.

Pena, E. H. M., de Almeida, E. C., and Naumann, F. (2019). Discovery of approximate (and exact) denial constraints. Proc. VLDB Endow., 13(3):266–278.

Pena, E. H. M., Falk, E., Meira, J. A., and de Almeida, E. C. (2018). Mind your dependencies for semantic query optimization. JIDM, 9(1):3–19.

Pena, E. H. M., Lucas Filho, E. R., de Almeida, E. C., and Naumann, F. (2020). Efficient detection of data dependency violations. In Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM), page 1235–1244.

Rekatsinas, T., Chu, X., Ilyas, I. F., and Ré, C. (2017). Holoclean: Holistic data repairs with probabilistic inference. PVLDB Endow., 10(11):1190–1201.

Santore, F., de Almeida, E. C., Bonat, W. H., Pena, E. H. M., and de Oliveira, L. E. S. (2020). A framework for analyzing the impact of missing data in predictive models. In Proceedings of the 29th ACM International Conference on Information and Knowledge Management (CIKM), pages 2209–2212.