Handling of missing values in wearable data streams

Resumo


O aumento do volume de dados gerados por dispositivos interconectados intensificou a necessidade por métodos eficientes de mineração de fluxo de dados, especialmente em aplicações de saúde com uso de dispositivos vestíveis (e.g., smartwatchs). Esses sistemas permitem o monitoramento contínuo da saúde e apoiam diagnósticos mais rápidos. No entanto, a presença de valores ausentes, comum em fluxo de dados, pode levar a decisões enviesadas ou inválidas, especialmente quando suas causas são desconhecidas. Este projeto de doutorado propõe um método de pré-processamento para tratar valores ausentes em fluxos de dados provenientes de dispositivos vestíveis na área da saúde, abordando desafios como a evolução dos dados, diferentes mecanismos de ausência e restrições computacionais. O objetivo é melhorar a qualidade dos dados e a robustez das tarefas de mineração em sistemas de monitoramento em tempo real.

Palavras-chave: Data Streams, Missing Values, Preprocessing

Referências

Bahri, M., Bifet, A., Gama, J., Gomes, H. M., and Maniu, S. (2021). Data stream analysis: Foundations, major tasks and tools. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 11(3):e1405.

Dong, W., Gao, S., Yang, X., and Yu, H. (2021). An exploration of online missing value imputation in non-stationary data stream. SN Computer Science, 2:1–11.

Fountas, P. and Kolomvatsos, K. (2020). A continuous data imputation mechanism based on streams correlation. In 2020 IEEE Symposium on Computers and Communications (ISCC), pages 1–6. IEEE.

Getzen, E., Ungar, L., Mowery, D., Jiang, X., and Long, Q. (2023). Mining for equitable health: Assessing the impact of missing data in electronic health records. Journal of biomedical informatics, 139:104269.

Halder, B., Ahmed, M. M., Amagasa, T., Isa, N. A. M., Faisal, R. H., and Rahman, M. M. (2022). Missing information in imbalanced data stream: fuzzy adaptive imputation approach. Applied Intelligence, 52(5):5561–5583.

Isgut, M., Gloster, L., Choi, K., Venugopalan, J., and Wang, M. D. (2022). Systematic review of advanced ai methods for improving healthcare data quality in post covid-19 era. IEEE Reviews in Biomedical Engineering, 16:53–69.

Li, X., Li, H., Lu, H., Jensen, C. S., Pandey, V., and Markl, V. (2023). Missing value imputation for multi-attribute sensor data streams via message propagation. Proceedings of the VLDB Endowment, 17(3):345–358.

Lima, A. S. and Sousa, E. (2024). Handling missing values in data streams: An overview. In Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, pages 750–756, Porto Alegre, RS, Brasil. SBC.

Liu, W., Luo, L., and Zhou, L. (2023). Online missing value imputation for high-dimensional mixed-type data via generalized factor models. Computational Statistics & Data Analysis, 187:107822.

Mangussi, A. D., Santos, M. S., Lopes, F. L., Pereira, R. C., Lorena, A. C., and Abreu, P. H. (2024). mdatagen: A python library for generating missing data. [link].

Mishra, T., Wang, M., Metwally, A. A., Bogu, G. K., Brooks, A. W., Bahmani, A., Alavi, A., Celli, A., Higgs, E., Dagan-Rosenfeld, O., et al. (2020). Pre-symptomatic detection of covid-19 from smartwatch data. Nature biomedical engineering, 4(12):1208–1220.

Psychogyios, K., Ilias, L., Ntanos, C., and Askounis, D. (2023). Missing value imputation methods for electronic health records. IEEE Access, 11:21562–21574.

Ren, L., Wang, T., Seklouli, A. S., Zhang, H., and Bouras, A. (2023). A review on missing values for main challenges and methods. Information Systems, page 102268.

Santos, M. S., Pereira, R. C., Costa, A. F., Soares, J. P., Santos, J., and Abreu, P. H. (2019). Generating synthetic missing data: A review by missing mechanism. IEEE Access, 7:11651–11667.

Sun, Z., Zeng, G., and Ding, C. (2020). Imputation for missing items in a stream data based on gamma distribution. In International Conference on Smart Computing and Communication, pages 236–247. Springer.

Zhang, Y. and Thorburn, P. J. (2022). Handling missing data in near real-time environmental monitoring: A system and a review of selected methods. Future Generation Computer Systems, 128:63–72.
Publicado
29/09/2025
S. LIMA, Afonso M.; SOUSA, Elaine P. M. de. Handling of missing values in wearable data streams. In: WORKSHOP DE TESES E DISSERTAÇÕES (WTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 182-188. DOI: https://doi.org/10.5753/sbbd_estendido.2025.247665.