Análise comparativa de métodos baseados em modelos de linguagem para documentos jurídicos longos

Gabriele S. Araújo; Fabrício A. do Carmo; Ewaldo E. C. Santana; Antonio F. L. Jacob Junior; Fábio M. F. Lobato

doi:10.5753/erad-eramia-no2.2024.245617

Gabriele S. Araújo UEMA
Fabrício A. do Carmo UFMA
Ewaldo E. C. Santana UEMA / UFMA
Antonio F. L. Jacob Junior UEMA
Fábio M. F. Lobato UEMA /UFOPA

DOI: https://doi.org/10.5753/erad-eramia-no2.2024.245617

Resumo

Com mais de 80 milhões de processos em trâmite, o judiciário brasileiro enfrenta uma crise de eficiência, comprometendo a celeridade e qualidade da prestação jurisdicional. Modelos de linguagem baseados em Transformers, como o BumbaBERT, têm sido usados para otimizar o processamento de dados jurídicos, mas enfrentam limitações com documentos longos devido ao custo computacional e à restrição de tokens. Com isso, este estudo tem o objetivo de comparar e avaliar métodos existentes na literatura para superar essas limitações. Os resultados indicam que métodos de seleção de sentenças melhoram o desempenho na classificação de documentos. Com isso, este trabalho tem em vista aprimorar a eficiência do sistema judiciário, alinhando-se aos objetivos do programa Justiça 4.0.

Referências

CNJ (2020). Resolução n. 332, de 21 de agosto de 2020. Diário da Justiça do Conselho Nacional de Justiça, Brasília, DF. Acesso em: 2 set. 2024.

CNJ and PNUD (2021). Cartilha justiça 4.0. Disponível em: [link].

de Almeida, N. D. and de Almeida Pinto, P. A. L. (2022). O uso da inteligência artificial como ferramenta de eficiência e acesso à justiça em revisão sistemática da literatura. Research, Society and Development, 11(11):e349111133674–e349111133674.

Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

do Carmo, F. A. (2024). Representações Embeddings Orientadas à Linguagem Jurídica Brasileira. Master’s thesis, Universidade Estadual do Maranhão, São Luís - MA.

Kalamkar, P., Tiwari, A., Agarwal, A., Karn, S., Gupta, S., Raghavan, V., and Modi, A. (2022). Corpus for automatic structuring of legal documents. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 4420–4429, Marseille, France. European Language Resources Association.

Martínez-Plumed, F., Contreras-Ochando, L., Ferri, C., Hernández-Orallo, J., Kull, M., Lachiche, N., Ramírez-Quintana, M. J., and Flach, P. (2019). Crisp-dm twenty years later: From data mining processes to data science trajectories. IEEE transactions on knowledge and data engineering.

Pappagari, R., Zelasko, P., Villalba, J., Carmiel, Y., and Dehak, N. (2019). Hierarchical transformers for long document classification. In 2019 IEEE automatic speech recognition and understanding workshop (ASRU).

Park, H., Vyas, Y., and Shah, K. (2022). Efficient classification of long documents using transformers. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, Dublin, Ireland. Association for Computational Linguistics.