Um Estudo Comparativo do Uso de Abordagens de Comitês de Regressão para Imputação hot-deck
Resumo
Um problema essencial no pré-processamento de dados está relacionado a lidar com dados ausentes. Uma possível solução para esse problema é a imputação hot-deck, uma técnica composta de duas etapas: primeiro agrupar registros semelhantes no conjunto de dados de entrada e, em seguida, realizar a imputação em cada grupo separado. No entanto, selecionar o melhor algoritmo para a segunda etapa é uma tarefa desafiadora. Este artigo apresenta um estudo comparativo da imputação hot-deck considerando dois métodos de comitê: Bagging e Adaboost. Avaliamos esses métodos usando conjuntos de dados com diferentes correlações entre seus atributos, variando as taxas de valor ausente. Nossos resultados medindo a precisão dos dados imputados por ambas as técnicas indicam que o Adaboost resulta em melhor precisão e tempo de processamento razoável.
Referências
B Ford. An overview of hot-deck procedures, incomplete data in sample surveys, 1 theoryand bibliographies, vol. 2, w.AcademicPress, 3, 1983.
David A Marker, David R Judkins, and Marianne Winglee. Large-scale imputation forcomplex surveys.Surveynonresponse, 329341, 2002.
Yongqing Nan and Yanyan Gao. A machine learning method to monitor china’s aidsepidemics with data from baidu trends.PloSone, 13(7):e0199697, 2018.
Pratik Patil and A. Karthikeyan. A survey on k-means clustering for analyzing vari-ation in data. In G. Ranganathan, Joy Chen, and Álvaro Rocha, editors, Inventive Communication and Computational Technologies, pages 317–323, Singapore, 2020.Springer Singapore. ISBN 978-981-15-0146-3.
Jorge Soares.Pre-Processamento em mineração de dados: Um Estudo Comparativo em Complementação. PhD thesis, COPPE/UFRJ - Engenharia de Sistemas e Computação,2007
Rodrigo Tavares Souza. Appraisal-spark: Uma abordagem para imputação em larga escala. Master’s thesis, CEFET/RJ - PPCIC, 2019.
Rodrigo Tavares Souza, Rafael Castaneda, Claudia Ferlin, Ronaldo Goldschmidt, LuisV. Carvalho Alfredo, and Jorge de Abreu Soares. Apoiando o processo de imputação com técnicas de aprendizado de máquina. In 33rd Brazilian Symposium on Databases(SBBD), pages 259–264, 2018.
MA Syakur, BK Khotimah, EMS Rochman, and BD Satoto. Integration k-means clustering method and elbow method for identification of the best customer profile cluster. In IOP Conference Series:Materials Science and Engineering, volume 336, page 012017.IOP Publishing, 2018.
Cha Zhang and Yunqian Ma. Ensemble machine learning: methods and applications.Springer, 2012.