Reconhecimento de entidades sensíveis em boletins de ocorrência com modelos baseados na arquitetura transformer

  • Victor Souza UFPA
  • Luan Silva UFG
  • Adam Santos UNIFESSPA
  • Reginaldo Filho UFPA
  • Anderson Soares UFG

Resumo


Este trabalho aborda a identificação automática de dados sensíveis em boletins de ocorrência brasileiros com modelos de aprendizado profundo baseados em transformers. Registros reais de Marabá (PA) foram anotados com entidades como PESSOA, ENDEREÇO e CPF. Modelos em português foram ajustados e avaliados, destacando-se o robertalexpt-base com o F1-score (0,83), o que confirma o potencial de modelos contextualizados para desidentificação de textos com preservação de privacidade.

Referências

Brasil (2018). Lei geral de proteção de dados pessoais. Lei n.º 13.709/2018.

OpenAI (2024). Gpt-4o mini: advancing cost-efficient intelligence. [link]. Acessado em: 25 maio 2025.

Sang, E. F. and De Meulder, F. (2003). Introduction to the conll-2003 shared task: Language-independent named entity recognition. arXiv preprint cs/0306050.

Union, E. (2016). General data protection regulation. Regulation (EU) 2016/679.

Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., Li, J., and Wang, G. (2023). Gpt-ner: Named entity recognition via large language models.
Publicado
03/12/2025
SOUZA, Victor; SILVA, Luan; SANTOS, Adam; FILHO, Reginaldo; SOARES, Anderson. Reconhecimento de entidades sensíveis em boletins de ocorrência com modelos baseados na arquitetura transformer. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 5. , 2025, Marabá/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 21-24. DOI: https://doi.org/10.5753/erad-eramia-no2.2025.17281.