Avaliando as Limitações e Potenciais do Algoritmo k-Vizinhos Mais Próximos (kNN) na Imputação de Dados Clínicos

Resumo


A qualidade dos dados é crucial para a eficácia das soluções de Aprendizado de Máquina na saúde, sendo a ausência de valores um problema crítico e comum. Este estudo compara os métodos de imputação MissForest e MICE aplicados a dados clínicos de mais de 16.000 pacientes com COVID-19, destacando a precisão superior do MissForest, associada a alto custo computacional. Propomos um imputador baseado em KNN, otimizado para este contexto. Embora menos preciso, a eficiência computacional foi significativamente melhor. Uma análise mostrou que o desempenho do KNN é influenciado pela similaridade de vizinhança e entropia local. Em cenários homogêneos, o KNN se mostrou competitivo, sugerindo seu potencial para estratégias de imputação híbridas que combinem eficiência e robustez.
Palavras-chave: imputação de dados, inteligência artificial, aprendizado de máquina, covid 19

Referências

Beirlant, J., Dudewicz, E. J., Györfi, L., and van der Meulen, E. (1997). Estimating differential entropy with kernel methods. International Journal of Mathematical and Statistical Sciences, 6(1):17–39.

Breiman, L. (2001). Random forests. Machine learning, 45(1):5–32.

Chen, Z., Tan, S., Chajewska, U., Rudin, C., and Caruana, R. (2023). Missing values and imputation in healthcare data: Can interpretable machine learning help? In Proceedings of the Conference on Health, Inference, and Learning (CHIL), volume 209, pages 88–108. PMLR.

Emmanuel, T., Maupong, T., Mpoeleng, D., Semong, T., Mphago, B., and Tabona, O. (2021). A survey on missing data in machine learning. Journal of Big data, 8:1–37.

Jarrett, D., Cebere, B., Liu, T., Curth, A., and van der Schaar, M. (2022). Hyperimpute: Generalized iterative imputation with automatic model selection.

Lana, F. C. B., Marinho, C. C., de Paiva, B. B. M., Valle, L. R., do Nascimento, G. F., da Rocha, L. C. D., Carneiro, M., Batista, J. d. L., Anschau, F., Paraiso, P. G., Bartolazzi, F., Cimini, C. C. R., Schwarzbold, A. V., Rios, D. R. A., Gonçalves, M. A., and Marcolino, M. S. (2025). Unraveling relevant cross-waves pattern drifts in patient-hospital risk factors among hospitalized covid-19 patients using explainable machine learning methods. BMC Infectious Diseases, 25(1):537.

Little, R. J. and Rubin, D. B. (2019). Statistical analysis with missing data. John Wiley & Sons.

Liu, M., Li, S., Yuan, H., Ong, M. E. H., Ning, Y., Xie, F., Saffari, S. E., Shang, Y., Volovici, V., Chakraborty, B., et al. (2023). Handling missing values in healthcare data: A systematic review of deep learning-based imputation techniques. Artificial intelligence in medicine, 142:102587.

Marcolino, M. S., Ziegelmann, P. K., Souza-Silva, M. V. R., Nascimento, I. J. B., Oliveira, L. M., and et al. (2021). Clinical characteristics and outcomes of patients hospitalized with covid-19 in brazil: Results from the brazilian covid-19 registry. International Journal of Infectious Diseases, 107:300–310.

Paiva, B. B. M. et al. (2023). Potential and limitations of machine meta-learning (ensemble) methods for predicting covid-19 mortality in a large in-hospital brazilian dataset. Scientific Reports, 13(1):3463.

Shadbahr, T., Roberts, M., Stanczuk, J., Gilbey, J., Teare, P., Dittmer, S., Thorpe, M., Torné, R. V., Sala, E., Lió, P., Patel, M., Preller, J., Rudd, J. H. F., Mirtti, T., Rannikko, A. S., Aston, J. A. D., Tang, J., and Schönlieb, C.-B. (2023). The impact of imputation quality on machine learning classifiers for datasets with missing values. Communications Medicine, 3(1):139.

Yoon, J., Jordon, J., and van der Schaar, M. (2018). Gain: Missing data imputation using generative adversarial nets. In Proceedings of the 35th International Conference on Machine Learning (ICML), pages 5689–5698. PMLR.
Publicado
29/09/2025
GANEM, Izadora Monken; D. BIANCO, Guilherme; SERUFO FILHO, José Carlos; LIMA, Luciano; ROCHA, Leonardo; GONÇALVES, Marcos André. Avaliando as Limitações e Potenciais do Algoritmo k-Vizinhos Mais Próximos (kNN) na Imputação de Dados Clínicos. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 809-815. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247716.