Criação de Conjuntos de Dados Textuais Jurídicos em Português a partir de Processo de Extração e Heurística

Daniel Silva Junior; Daniel de Oliveira; Aline Paes

doi:10.5753/dsw.2022.226253

Daniel Silva Junior Universidade Federal Fluminense
Daniel de Oliveira Universidade Federal Fluminense
Aline Paes Universidade Federal Fluminense

DOI: https://doi.org/10.5753/dsw.2022.226253

Resumo

O judiciário brasileiro possui uma grande carga de trabalho, o que acaba acarretando um longo tempo para conclusão dos processos judiciais. Diversas iniciativas de digitalização têm surgido, abrindo a possibilidade do uso de recursos computacionais no auxílio das tarefas cotidianas do domínio jurídico. O domínio jurídico lida, em sua maioria, com dados textuais e a Inteligência Artificial tem técnicas que podem ajudar a apoiar as tarefas cotidianas, dando maior celeridade ao processo. No entanto, conjuntos de dados do domínio jurídico necessários para algumas técnicas atuais de Inteligência Artificial são escassos e de difícil obtenção, uma vez que requerem anotações por parte de especialistas. Este artigo apresenta quatro conjuntos de dados do domínio jurídico, dois com corpus de documentos e alguns metadados mas sem rótulo, e outros dois anotados com uma heurística visando seu uso na tarefa de similaridade semântica textual.

Palavras-chave: Dados Jurídicos Textuais, Similaridade Semântica Textual, Processamento de Linguagem Natural

Referências

Albuquerque, H., Costa, R., Silvestre, G., Souza, E. P., Felix, N., Vitório, D., and Carvalho, A. (2022). Ulyssesner-br: A corpus of brazilian legislative documents for named entity recognition.

Chen, S. F. and Goodman, J. (1999). An empirical study of smoothing techniques for language modeling. Computer Speech & Language, 13(4):359-394.

Dal Pont, T. R., Sabo, I. C., Hubner, J. F., and Rover, A. J. (2020). Impact of text specificity and size on word embeddings performance: An empirical evaluation in brazilian legal domain. In Brazilian Conference on Intelligent Systems, pages 521-535. Springer.

de Araujo, P. H. L., de Campos, T. E., de Oliveira, R. R., Stauffer, M., Couto, S., and Bermejo, P. (2018). Lener-br: A dataset for named entity recognition in brazilian legal text. In International Conference on Computational Processing of the Portuguese Language, pages 313-323. Springer.

de Oliveira, R. A. N. and Junior, M. C. (2017). Assessing the impact of stemming algorithms applied to judicial jurisprudence-an experimental analysis. In Proceedings of the 19th International Conference on Enterprise Information Systems-Volume 1:ICEIS,, pages 99-105.

de Oliveira, R. S. and Nascimento, E. G. S. (2022). Brazilian court documents clustered by similarity together using natural language processing approaches with transformers.

Fonseca, E., Santos, L., Criscuolo, M., and Aluisio, S. (2016). Assin: Avaliacao de similaridade semantica e inferencia textual. In Computational Processing of the Portuguese Language-12th International Conference, Tomar, Portugal, pages 13-15.

Howard, J. and Ruder, S. (2018). Universal language model fine-tuning for text classification. arXiv preprint arXiv:1801.06146.

Luz de Araujo, P. H., de Campos, T. E., Ataides Braz, F., and Correia da Silva, N. (2020). VICTOR: a dataset for Brazilian legal documents classification. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 1449-1458, Marseille, France. European Language Resources Association.

Willian Sousa, A. and Fabro, M. (2019). Iudicium textum dataset uma base de textos jurídicos para nlp. In Dataset Show Case Proceedings of 34th Brazilian Symposium on Databases. SBC.