Apoiando o processo de imputação com técnicas de aprendizado de máquina

Rodrigo Tavares de Souza; Rafael Castaneda Ribeiro; Claudia Ferlin; Ronaldo Ribeiro Goldschmidt; Luis Alfredo V. Carvalho; Jorge de Abreu Soares

doi:10.5753/sbbd.2018.22240

Rodrigo Tavares de Souza Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)
Rafael Castaneda Ribeiro Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)
Claudia Ferlin Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)
Ronaldo Ribeiro Goldschmidt Instituto Militar de Engenharia (IME)
Luis Alfredo V. Carvalho Universidade Federal do Rio de Janeiro (UFRJ)
Jorge de Abreu Soares Centro Federal de Educação Tecnológica Celso Suckow da Fonseca (CEFET/RJ)

DOI: https://doi.org/10.5753/sbbd.2018.22240

Resumo

A tarefa de imputação de dados é um importante desafio enfrentado pelos cientistas de dados. Nesse contexto, torna-se imperativo dispor-se de técnicas de imputação que melhorem a qualidade do dado preenchido. Valer-se tanto de técnicas de aprendizado de máquina quanto de variações do processo clássico de imputação pode tornar possível a melhora da qualidade dos dados imputados. Assim, este artigo tem por propósito avaliar o impacto da utilização do algoritmo dos k-vizinhos mais próximos frente ao uso da média no processo de imputação global bem como explorar o uso da técnica de imputação hot-deck com o algoritmo de agrupamento k-Means e a imputação com k-NN. Os resultados revelam interessante redução da margem de erro obtida na simulação em três bases de dados com diferentes características.

Palavras-chave: Imputação de dados, aprendizado de máquina, k-vizinhos mais próximos, k-means, k-NN

Referências

Castaneda, R., Ferlin, C., Goldschmidt, R., Soares, J., Carvalho, L., Choren, R. (2008). Aprimorando Processos de Imputação Multivariada de Dados com Workflows. XXIII Simpósio Brasileiro de Banco de Dados (SBBD), pages 238–252.

Dua, D., Karra Taniskidou, E. (2017). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

Farhangfar, A., Kurgan, L., Pedrycz, W. (2007). A novel framework for imputation of missing values in databases. IEEE Transactions on Systems, Man, and Cybernetics.

Ford, B. L. (1983). An Overview of Hot-Deck Procedures. Incomplete Data in Sample Surveys, 1 ed., vol. 2, Academic Press.

Fuller, W. A., Kim, J. K. (2001). Hot Deck Imputation for the Response Model. Survey Methodology, v. 31, n. 2, pp. 139-149.

Han, J., Kamber, M., Pei, J. (2011). Data Mining: Concepts and Techniques, 3ed. Morgan Kaufmann, Waltham, Mass.

Jerez, J. M., Molina, I., García-Laencina, P. J., Alba, E., Ribelles, N., Martín, M., Franco, L. (2010). Missing data imputation using statistical and machine learning methods in a real breast cancer problem. Artificial Intelligence in Medicine.

Little, R. J. and Rubin, D. B. (2002). Statistical Analysis with Missing Data. John Wiley & Sons,New York, 2ed.

Luengo, J., García, S., Herrera, F., (2012), On the choice of the best imputation methods for missing values considering three groups of classification methods, Knowledge and Information Systems, v. 32, n. 1 (Jul.), p. 77–108.

Rubin, D. B. (1988). An overview of multiple imputation. In Proceedings of the Survey Research Section, American Statistical Association, pp. 79–84.

Silva, L. O., Zárate, L. E. (2014). A brief review of the main approaches for treatment of missing data. Intelligent Data Analysis, vol. 18, no. 6, pp. 1177-1198.

Soares, J. (2007). Pré-processamento em Mineração de Dados: um Estudo Comparativo em Complementação. Tese de Doutorado, COPPE/UFRJ.