Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis

  • Bruno H. Labres UFPR
  • André Grégio UFPR
  • Fabiano Silva UFPR

Resumo


A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.

Referências

Ç. Çöltekin and T. Rama. Drug-use identification from tweets with word and character n-grams. In Proceedings of the 2018 EMNLP Workshop SMM4H: The 3rd Social Media Mining for Health Applications Workshop & Shared Task, pages 52–53, Brussels, Belgium, Oct. 2018. Association for Computational Linguistics. doi:10.18653/v1/W18-5914. URL https://aclanthology.org/W18-5914.

S. Daneshvar and D. Inkpen. Gender identification in twitter using n-grams and lsa: Notebook for pan at clef 2018. In CLEF, 2018.

K. El Emam and F. K. Dankar. Protecting privacy using k-anonymity. Journal of the American Medical Informatics Association, 15(5):627–637, 2008.

D. . C. L. . M. B. . V. L. . M. E. . S. M. Grégio, A. R. A. ; Aleo. Monitoramento Remoto e Georreferenciamento de Tecnologias para Saúde. In: Fotini Santos Toscas; Maria Helenice de Castro. (Org.). Avanços, Desafios e Oportunidades no Complexo Industrial da Saúde em Serviços Tecnológicos. MS, 2018.

D. P. Kingma and J. Ba. Adam: A method for stochastic optimization, 2017.

J. Leskovec, A. Rajaraman, and J. D. Ullman. Mining of Massive Datasets. Cambridge University Press, USA, 2nd edition, 2014. ISBN 1107077230.

B. Malle, P. Kieseberg, and A. Holzinger. Interactive anonymization for privacy aware machine learning. 11 2017.

S. Robertson. Understanding inverse document frequency: On theoretical arguments for idf. Journal of Documentation - J DOC, 60:503–520, 10 2004. doi: 10.1108/00220410410560582.

A. Tveit, O. Edsberg, T. Røst, A. Faxvaag, Nytrø, T. Nordgard, M. Ranang, and A. Grimsmo. Anonymization of general practioner medical records. 01 2004.
Publicado
04/10/2021
LABRES, Bruno H.; GRÉGIO, André; SILVA, Fabiano. Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis. In: WORKSHOP DE TRABALHOS DE INICIAÇÃO CIENTÍFICA E DE GRADUAÇÃO - SIMPÓSIO BRASILEIRO DE SEGURANÇA DA INFORMAÇÃO E DE SISTEMAS COMPUTACIONAIS (SBSEG), 21. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 98-109. DOI: https://doi.org/10.5753/sbseg_estendido.2021.17365.

Artigos mais lidos do(s) mesmo(s) autor(es)

<< < 1 2 3 > >>