Aplicando Estatística Multivariada para Detecção e Diagn óstico de Anomalias em Dados Urbanos

  • Thiago I. A. Souza
  • Deborah M.V. Magalhães
  • Danielo G. Gomes

Resumo


Estima-se que até 2020 cerca de 40 ZB (Zettabytes) de dados serão gerados por ano. Em um cenário de cidades inteligentes, por exemplo, a análise e mineração de um grande volume de dados gerados pelos seus moradores pode ajudar os gestores públicos na melhoria e implementação de serviços voltados ao bem-estar do cidadão. Neste contexto, a detecção de anomalias (valores discrepantes) ganha importância no monitoramento ambiental eficaz de um espaço urbano. Neste artigo, aplicamos estatística multivariada em dados urbanos (temperatura, umidade, gases poluentes, nível de ruído sonoro) na seguinte sequência metodológica: (i) PCA (Principal Component Analysis) para redução da dimensionalidade dos dados; (ii) Estatísticas D e Q para detecção de anomalias e (iii) Método CDC (Complete Decomposition Contribution) para diagnóstico (causas) das anomalias encontradas. Analisamos duas bases de dados reais da plataforma Smart Citizen e os resultados apontam para a eficiência da nossa proposta, indicando quais variáveis ambientais apresentaram maior impacto no comportamento anõmalo dos dados.
Publicado
19/05/2017
SOUZA, Thiago I. A.; MAGALHÃES, Deborah M.V.; GOMES, Danielo G.. Aplicando Estatística Multivariada para Detecção e Diagn óstico de Anomalias em Dados Urbanos. In: WORKSHOP DE COMPUTAÇÃO URBANA (COURB), 1. , 2017, Belém. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . ISSN 2595-2706.