CDJUR-BR - Uma Coleção Dourada do Judiciário Brasileiro com Entidades Nomeadas Refinadas


Este artigo apresenta o desenvolvimento da Coleção Dourada do Judiciário Brasileiro (CDJUR-BR), um corpus formado por 21 entidades específicas anotadas em documentos jurídicos. A CDJUR-BR visa fornecer um corpus abrangente e robusto para REN, composto por 44.526 anotações. Além disso, foi desenvolvido um modelo para REN baseado no BERT que alcançou a F1-macro media de 0,58. Estes resultados indiciaram a importância e a utilidade da CDJUR-BR.

Palavras-chave: Coleção Dourada, Anotação de Corpus, Reconhecimento de Entidades Nomeadas, Legal IA


