Um Estudo Comparativo do Uso de Abordagens de Comitês de Regressão para Imputação hot-deck

Thiago da Silva Pereira; Eduardo Bezerra da Silva; Jorge de Abreu Soares

doi:10.5753/sbbd.2020.13635

Thiago da Silva Pereira Centro Federal de Educação Tecnológica Celso Suckow da Fonseca
Eduardo Bezerra da Silva Centro Federal de Educação Tecnológica Celso Suckow da Fonseca
Jorge de Abreu Soares Centro Federal de Educação Tecnológica Celso Suckow da Fonseca

DOI: https://doi.org/10.5753/sbbd.2020.13635

Resumo

Um problema essencial no pré-processamento de dados está relacionado a lidar com dados ausentes. Uma possível solução para esse problema é a imputação hot-deck, uma técnica composta de duas etapas: primeiro agrupar registros semelhantes no conjunto de dados de entrada e, em seguida, realizar a imputação em cada grupo separado. No entanto, selecionar o melhor algoritmo para a segunda etapa é uma tarefa desafiadora. Este artigo apresenta um estudo comparativo da imputação hot-deck considerando dois métodos de comitê: Bagging e Adaboost. Avaliamos esses métodos usando conjuntos de dados com diferentes correlações entre seus atributos, variando as taxas de valor ausente. Nossos resultados medindo a precisão dos dados imputados por ambas as técnicas indicam que o Adaboost resulta em melhor precisão e tempo de processamento razoável.

Palavras-chave: Imputação Hot-Deck, Dados Ausentes, Bagging, AdaBoost, Comitês, Ensemble

Referências

Samuel Zico Christopher, Titin Siswantining, Devvi Sarwinda, and Alhadi Bustaman.Missing value analysis of numerical data using fractional hot deck imputation. In 2019 3rd International Conference on Informatics and Computational Sciences (ICICoS), pages 1–6. IEEE, 2019.

B Ford. An overview of hot-deck procedures, incomplete data in sample surveys, 1 theoryand bibliographies, vol. 2, w.AcademicPress, 3, 1983.

David A Marker, David R Judkins, and Marianne Winglee. Large-scale imputation forcomplex surveys.Surveynonresponse, 329341, 2002.

Yongqing Nan and Yanyan Gao. A machine learning method to monitor china’s aidsepidemics with data from baidu trends.PloSone, 13(7):e0199697, 2018.

Pratik Patil and A. Karthikeyan. A survey on k-means clustering for analyzing vari-ation in data. In G. Ranganathan, Joy Chen, and Álvaro Rocha, editors, Inventive Communication and Computational Technologies, pages 317–323, Singapore, 2020.Springer Singapore. ISBN 978-981-15-0146-3.

Jorge Soares.Pre-Processamento em mineração de dados: Um Estudo Comparativo em Complementação. PhD thesis, COPPE/UFRJ - Engenharia de Sistemas e Computação,2007

Rodrigo Tavares Souza. Appraisal-spark: Uma abordagem para imputação em larga escala. Master’s thesis, CEFET/RJ - PPCIC, 2019.

Rodrigo Tavares Souza, Rafael Castaneda, Claudia Ferlin, Ronaldo Goldschmidt, LuisV. Carvalho Alfredo, and Jorge de Abreu Soares. Apoiando o processo de imputação com técnicas de aprendizado de máquina. In 33rd Brazilian Symposium on Databases(SBBD), pages 259–264, 2018.

MA Syakur, BK Khotimah, EMS Rochman, and BD Satoto. Integration k-means clustering method and elbow method for identification of the best customer profile cluster. In IOP Conference Series:Materials Science and Engineering, volume 336, page 012017.IOP Publishing, 2018.

Cha Zhang and Yunqian Ma. Ensemble machine learning: methods and applications.Springer, 2012.