A Data-Centric Approach to Missing Data Imputation: Addressing Noise, Adversarial, and Fairness Challenges

  • Arthur Dantas Mangussi ITA / UNIFESP
  • Pedro Henriques Abreu University of Coimbra
  • Ana Carolina Lorena ITA / UNIFESP

Resumo


Conjuntos de dados do mundo real frequentemente apresentam problemas de qualidade, os quais podem comprometer o desempenho de modelos de aprendizado de máquina. Alinhado ao paradigma de Data-Centric AI, este trabalho foca em dados ausentes, investigando sua interação com outros problemas de qualidade de dados, em vez de propor novos métodos de imputação. Especificamente, o estudo analisa como os dados faltantes se comportam na presença de ruído, ataques adversariais e questões relacionadas à fairness. Os resultados mostram que essas interações influenciam significativamente o erro na qualidade da imputação, o desempenho preditivo e os resultados de equidade. Esses achados reforçam a importância de considerar fatores mais amplos de qualidade de dados ao lidar com dados faltantes. Além disso, esta pesquisa contribui com um novo pacote em Python desenvolvido para gerar valores ausentes em diferentes cenários realistas. Essa ferramenta possibilita experimentos reprodutíveis e promove uma comparação mais justa entre estratégias de imputação, apoiando pesquisas futuras em dados faltantes e avaliações centradas nos dados.

Referências

Buuren, S. and Groothuis-Oudshoorn, C. (2011). Mice: Multivariate imputation by chained equations in r. Journal of Statistical Software, 45(3):1–67.

Clemente, F., Ribeiro, G. M., Quemy, A., Santos, M. S., Pereira, R. C., and Barros, A. (2023). ydata-profiling: Accelerating data-centric ai with high-quality data. Neurocomputing, 554:126585.

García-Laencina, P. J., Sancho-Gómez, J.-L., and Figueiras-Vidal, A. R. (2010). Pattern classification with missing data: a review. Neural Computing and Applications, 19(2):263–282.

Hasan, M. K., Alam, M. A., Roy, S., Dutta, A., Jawad, M. T., and Das, S. (2021). Missing value imputation affects the performance of machine learning: A review and analysis of the literature (2010–2021). Informatics in Medicine Unlocked, 27:100799.

Hastie, T., Mazumder, R., Lee, J. D., and Zadeh, R. (2015). Matrix completion and low-rank svd via fast alternating least squares. J. Mach. Learn. Res., 16(1):3367–3402.

Lemaı̂tre, G., Nogueira, F., and Aridas, C. K. (2017). Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. Journal of Machine Learning Research, 18(17):1–5.

Lin, W.-C. and Tsai, C.-F. (2020). Missing value imputation: a review and analysis of the literature (2006–2017). Artificial Intelligence Review, 53:1487–1509.

Mangussi, A. D., Pereira, R. C., Lorena, A. C., Santos, M. S., and Abreu, P. H. (2025a). Studying the robustness of data imputation methodologies against adversarial attacks. Computers Security, 157:104574.

Mangussi, A. D., Santos, M. S., Lopes, F. L., Pereira, R. C., Lorena, A. C., and Abreu, P. H. (2025b). mdatagen: A python library for the artificial generation of missing data. Neurocomputing, 625:129478.

Martins, N., Cruz, J., Cruz, T., and Henriques Abreu, P. (2020). Adversarial machine learning applied to intrusion and malware scenarios: A systematic review. IEEE Access, PP:1–1.

Nakhaei, A., Sepehri, M. M., and khatibi, t. (2023). A promising method for correcting class noise in the presence of attribute noise. International Journal of Hospital Research, 12(1):–.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

Pereira, R. C., Abreu, P. H., and Rodrigues, P. P. (2022). Partial multiple imputation with variational autoencoders: tackling not at randomness in healthcare data. IEEE Journal of Biomedical and Health Informatics, 26(8):4218–4227.

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63(3):581–592.

Santos, M. S., Pereira, R. C., Costa, A. F., Soares, J. P., Santos, J., and Abreu, P. H. (2019). Generating synthetic missing data: A review by missing mechanism. IEEE Access, 7:11651–11667.

Stekhoven, D. and Bühlmann, P. (2012). Missforest?non-parametric missing value imputation for mixed-type data. Bioinformatics (Oxford, England), 28:112–8.

Yoon, J., Jordon, J., and van der Schaar, M. (2018). Gain: Missing data imputation using generative adversarial nets. In International Conference on Machine Learning (ICML), pages 5689—-5698.

Yu, Z., Fung, B., and Haghighat, F. (2013). Extracting knowledge from building-related data — a data mining framework. Building Simulation, 6:207–222.
Publicado
19/07/2026
MANGUSSI, Arthur Dantas; ABREU, Pedro Henriques; LORENA, Ana Carolina. A Data-Centric Approach to Missing Data Imputation: Addressing Noise, Adversarial, and Fairness Challenges. In: CONCURSO DE TESES E DISSERTAÇÕES DA SBC (CTD-SBC), 39. , 2026, Gramado/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 70-79. ISSN 2763-8820. DOI: https://doi.org/10.5753/ctd.2026.19185.