Um Estudo Comparativo do Uso de Abordagens de Comitês de Regressão para Imputação hot-deck

  • Thiago da Silva Pereira Centro Federal de Educação Tecnológica Celso Suckow da Fonseca
  • Eduardo Bezerra da Silva Centro Federal de Educação Tecnológica Celso Suckow da Fonseca
  • Jorge de Abreu Soares Centro Federal de Educação Tecnológica Celso Suckow da Fonseca

Resumo


Um problema essencial no pré-processamento de dados está relacionado a lidar com dados ausentes. Uma possível solução para esse problema é a imputação hot-deck, uma técnica composta de duas etapas: primeiro agrupar registros semelhantes no conjunto de dados de entrada e, em seguida, realizar a imputação em cada grupo separado. No entanto, selecionar o melhor algoritmo para a segunda etapa é uma tarefa desafiadora. Este artigo apresenta um estudo comparativo da imputação hot-deck considerando dois métodos de comitê: Bagging e Adaboost. Avaliamos esses métodos usando conjuntos de dados com diferentes correlações entre seus atributos, variando as taxas de valor ausente. Nossos resultados medindo a precisão dos dados imputados por ambas as técnicas indicam que o Adaboost resulta em melhor precisão e tempo de processamento razoável.

Palavras-chave: Imputação Hot-Deck, Dados Ausentes, Bagging, AdaBoost, Comitês, Ensemble

Referências

Samuel Zico Christopher, Titin Siswantining, Devvi Sarwinda, and Alhadi Bustaman.Missing value analysis of numerical data using fractional hot deck imputation. In 2019 3rd International Conference on Informatics and Computational Sciences (ICICoS), pages 1–6. IEEE, 2019.

B Ford. An overview of hot-deck procedures, incomplete data in sample surveys, 1 theoryand bibliographies, vol. 2, w.AcademicPress, 3, 1983.

David A Marker, David R Judkins, and Marianne Winglee. Large-scale imputation forcomplex surveys.Surveynonresponse, 329341, 2002.

Yongqing Nan and Yanyan Gao. A machine learning method to monitor china’s aidsepidemics with data from baidu trends.PloSone, 13(7):e0199697, 2018.

Pratik Patil and A. Karthikeyan. A survey on k-means clustering for analyzing vari-ation in data. In G. Ranganathan, Joy Chen, and Álvaro Rocha, editors, Inventive Communication and Computational Technologies, pages 317–323, Singapore, 2020.Springer Singapore. ISBN 978-981-15-0146-3.

Jorge Soares.Pre-Processamento em mineração de dados: Um Estudo Comparativo em Complementação. PhD thesis, COPPE/UFRJ - Engenharia de Sistemas e Computação,2007

Rodrigo Tavares Souza. Appraisal-spark: Uma abordagem para imputação em larga escala. Master’s thesis, CEFET/RJ - PPCIC, 2019.

Rodrigo Tavares Souza, Rafael Castaneda, Claudia Ferlin, Ronaldo Goldschmidt, LuisV. Carvalho Alfredo, and Jorge de Abreu Soares. Apoiando o processo de imputação com técnicas de aprendizado de máquina. In 33rd Brazilian Symposium on Databases(SBBD), pages 259–264, 2018.

MA Syakur, BK Khotimah, EMS Rochman, and BD Satoto. Integration k-means clustering method and elbow method for identification of the best customer profile cluster. In IOP Conference Series:Materials Science and Engineering, volume 336, page 012017.IOP Publishing, 2018.

Cha Zhang and Yunqian Ma. Ensemble machine learning: methods and applications.Springer, 2012.
Publicado
28/09/2020
PEREIRA, Thiago da Silva; DA SILVA, Eduardo Bezerra; SOARES, Jorge de Abreu. Um Estudo Comparativo do Uso de Abordagens de Comitês de Regressão para Imputação hot-deck. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 35. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 163-168. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2020.13635.