Detecção de anomalia através da comparação de modelos representativos

Giovana Jaskulski Gelatti; Pedro Pereira Rodrigues; André Carlos P. L. F. de Carvalho

doi:10.5753/sbcas.2021.16093

Giovana Jaskulski Gelatti USP
Pedro Pereira Rodrigues FMUP
André Carlos P. L. F. de Carvalho USP

DOI: https://doi.org/10.5753/sbcas.2021.16093

Resumo

Existem barreiras burocráticas e de ideais que tornam a comparação de departamentos e identiﬁcação de padrões, em geral, tarefas difíceis. A exploração dos dados coletados, juntamente com um modelo descritivo induzido a partir desses dados, podem ajudar a identiﬁcar modelos destoantes e promover a comparação das instituições. O estudo propõe a criação de modelos de redes Bayesianas capazes de representar e extrair conhecimentos novos e signiﬁcativos a partir dos dados nas variáveis utilizadas no estudo de caso. São selecionadas variáveis sobre secções obstétricas de hospitais de Portugal para a criação do modelo de cada entidade/secção. As funções do pacote R "bnlearn" foram usadas para manipular e recriar dados no modelo. O desempenho deste modelo foi validado quanto à capacidade de recriar dados. Para construir uma matriz de distâncias entre modelos para identiﬁcação de entidades destoantes, a distância de Hamming. As anomalias detectadas pela comparação dos modelos criados foram validadas por especialista de acordo com a escala Likert. Os dados foram descritos e recriados através de redes Bayesianas com imputação de dados, com referência signiﬁcativa aos dados reais. A comparação dos modelos sobre as secções de obstetrícia identiﬁcou padrões e anomalias. A comparação permitiu diferenciar os setores com diferentes taxas de cesárea e distribuição nos grupos de Robson, de acordo com as variáveis selecionadas, preservando o acesso aos dados reais das instituições.

Referências

(2016). Regulamento Geral sobre a Proteção de Dados. Regulamento (UE) 2016/679 do parlamento europeu e do conselho de 27 de abril de 2016 relativo à proteção das pessoas singulares no que diz respeito ao tratamento de dados pessoais e à livre circulação desses dados e que revoga a Diretiva 95/46/CE.

Breunig, M. M., Kriegel, H.-P., Ng, R. T., and Sander, J. (2000). Lof: identifying density-based local outliers. In Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 93–104.

Cruz-Correia, R. and Amorim, E. (2008). Obs.care: aplicacao de cuidados intensivos de obstetricia. Porto: Universidade do Porto/Faculdade de Medicina/Departamento Ciências da Informação e da Decisão em Saúde.

Darwiche, A. (2010). Bayesian networks. Commun. ACM, 53(12):80–90.

Diário Ocial da União, Seção 1, p. . (2018). Lei nº 13.709, de 14 de agosto de 2018.

Diário da República n.º 151/2019, S. I. d. .-.-. Lei n.º 58/2019.

Hutson, M. (2018). Artificial intelligence faces reproducibility crisis.

Organization, W. H. et al. (2015). Who statement on caesarean section rates. Technical report, World Health Organization.

Portugal, E. (2020). Instituto Nacional de Estatística Estatísticas da Saúde : 2018.

Ramaswamy, S., Rastogi, R., and Shim, K. (2000). Efficient algorithms for mining outliers from large data sets. In Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 427–438.

Robson, M., Hartigan, L., and Murphy, M. (2013). Methods of achieving and maintaining an appropriate caesarean section rate. Best practice & research Clinical obstetrics & gynaecology, 27(2):297–308.

Robson, M. S. (2001). Classification of caesarean sections. Fetal and maternal medicine review, 12(1):23–39.

RUBIN, D. B. (1976). Inference and missing data. Biometrika, 63(3):581–592.

Scutari, M., Scutari, M. M., and MMPC, H.-P. (2020). Package ‘bnlearn’.

Tan, P.-N., Steinbach, M., Kumar, V., et al. (2006). Introduction to data mining, volume 1. Pearson Addison Wesley Boston.

Van Buuren, S. and Oudshoorn, K. (1999). Flexible multivariate imputation by MICE. Leiden: TNO.

Walport, M. and Brest, P. (2011). Sharing research data to improve public health. The Lancet, 377(9765):537–539.

Wicherts, J. M., Bakker, M., and Molenaar, D. (2011). Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results. PloS one, 6(11):e26828.

Wu, S. X. and Banzhaf, W. (2010). The use of computational intelligence in intrusion detection systems: A review. Applied Soft Computing, 10(1):1–35.