Reconhecimento de entidades sensíveis em boletins de ocorrência com modelos baseados na arquitetura transformer
Resumo
Este trabalho aborda a identificação automática de dados sensíveis em boletins de ocorrência brasileiros com modelos de aprendizado profundo baseados em transformers. Registros reais de Marabá (PA) foram anotados com entidades como PESSOA, ENDEREÇO e CPF. Modelos em português foram ajustados e avaliados, destacando-se o robertalexpt-base com o F1-score (0,83), o que confirma o potencial de modelos contextualizados para desidentificação de textos com preservação de privacidade.Referências
Brasil (2018). Lei geral de proteção de dados pessoais. Lei n.º 13.709/2018.
OpenAI (2024). Gpt-4o mini: advancing cost-efficient intelligence. [link]. Acessado em: 25 maio 2025.
Sang, E. F. and De Meulder, F. (2003). Introduction to the conll-2003 shared task: Language-independent named entity recognition. arXiv preprint cs/0306050.
Union, E. (2016). General data protection regulation. Regulation (EU) 2016/679.
Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., Li, J., and Wang, G. (2023). Gpt-ner: Named entity recognition via large language models.
OpenAI (2024). Gpt-4o mini: advancing cost-efficient intelligence. [link]. Acessado em: 25 maio 2025.
Sang, E. F. and De Meulder, F. (2003). Introduction to the conll-2003 shared task: Language-independent named entity recognition. arXiv preprint cs/0306050.
Union, E. (2016). General data protection regulation. Regulation (EU) 2016/679.
Wang, S., Sun, X., Li, X., Ouyang, R., Wu, F., Zhang, T., Li, J., and Wang, G. (2023). Gpt-ner: Named entity recognition via large language models.
Publicado
03/12/2025
Como Citar
SOUZA, Victor; SILVA, Luan; SANTOS, Adam; FILHO, Reginaldo; SOARES, Anderson.
Reconhecimento de entidades sensíveis em boletins de ocorrência com modelos baseados na arquitetura transformer. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 5. , 2025, Marabá/PA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 21-24.
DOI: https://doi.org/10.5753/erad-eramia-no2.2025.17281.
