Desvendando Dados Corrompidos: Uma Jornada de Limpeza, Transformação e Geolocalização em Registros Ambientais

  • Mateus A. G. Oliveira UFPR
  • Aurora T. Pozo UFPR
  • Carmem S. Hara UFPR

Resumo


A qualidade dos dados é essencial para análises confiáveis em todas as áreas de conhecimento e, em particular, em estudos ambientais. Este artigo aborda a limpeza e normalização de dados sobre avistamentos de caravelaportuguesa (Physalia physalis) no litoral brasileiro, coletados de redes sociais e literatura científica. Foram corrigidos formatos de data, codificação de caracteres e imprecisões geográficas, utilizando padronização, correção automatizada e a API de Geocodificação do Google. Os resultados destacam a importância da curadoria e integração de dados para melhorar sua qualidade e viabilizar análises mais precisas.

Referências

Côté, P. O., Nikanjam, A., Ahmed, N., Humeniuk, D., and Khomh, F. (2024). Data cleaning and machine learning: a systematic literature review. Automated Software Engineering, 31.

Ilyas, I. F. and Chu, X. (2019). Data Cleaning. ACM.

Malek, M. A. A. and Jalil, K. A. (2025). Enhancing data cleaning process on accounting data for fraud detection. Indonesian Journal of Electrical Engineering and Computer Science, 37:1014–1022.

NASCIMENTO, L. S. D. (2023). REDES SOCIAIS COM FONTE DE DADOS ALTERNATIVA PARA MONITORAR ÁGUAS-VIVAS. PhD thesis.

Peng, J., Shen, D., Nie, T., and Kou, Y. (2024). Rlclean: An unsupervised integrated data cleaning framework based on deep reinforcement learning. Information Sciences, 682.
Publicado
23/04/2025
OLIVEIRA, Mateus A. G.; POZO, Aurora T.; HARA, Carmem S.. Desvendando Dados Corrompidos: Uma Jornada de Limpeza, Transformação e Geolocalização em Registros Ambientais. In: ESCOLA REGIONAL DE BANCO DE DADOS (ERBD), 20. , 2025, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 110-118. ISSN 2595-413X. DOI: https://doi.org/10.5753/erbd.2025.6720.