Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis
Resumo
A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.
Referências
S. Daneshvar and D. Inkpen. Gender identification in twitter using n-grams and lsa: Notebook for pan at clef 2018. In CLEF, 2018.
K. El Emam and F. K. Dankar. Protecting privacy using k-anonymity. Journal of the American Medical Informatics Association, 15(5):627–637, 2008.
D. . C. L. . M. B. . V. L. . M. E. . S. M. Grégio, A. R. A. ; Aleo. Monitoramento Remoto e Georreferenciamento de Tecnologias para Saúde. In: Fotini Santos Toscas; Maria Helenice de Castro. (Org.). Avanços, Desafios e Oportunidades no Complexo Industrial da Saúde em Serviços Tecnológicos. MS, 2018.
D. P. Kingma and J. Ba. Adam: A method for stochastic optimization, 2017.
J. Leskovec, A. Rajaraman, and J. D. Ullman. Mining of Massive Datasets. Cambridge University Press, USA, 2nd edition, 2014. ISBN 1107077230.
B. Malle, P. Kieseberg, and A. Holzinger. Interactive anonymization for privacy aware machine learning. 11 2017.
S. Robertson. Understanding inverse document frequency: On theoretical arguments for idf. Journal of Documentation - J DOC, 60:503–520, 10 2004. doi: 10.1108/00220410410560582.
A. Tveit, O. Edsberg, T. Røst, A. Faxvaag, Nytrø, T. Nordgard, M. Ranang, and A. Grimsmo. Anonymization of general practioner medical records. 01 2004.