Análise comparativa de métodos baseados em modelos de linguagem para documentos jurídicos longos

  • Gabriele S. Araújo UEMA
  • Fabrício A. do Carmo UFMA
  • Ewaldo E. C. Santana UEMA / UFMA
  • Antonio F. L. Jacob Junior UEMA
  • Fábio M. F. Lobato UEMA /UFOPA

Resumo


Com mais de 80 milhões de processos em trâmite, o judiciário brasileiro enfrenta uma crise de eficiência, comprometendo a celeridade e qualidade da prestação jurisdicional. Modelos de linguagem baseados em Transformers, como o BumbaBERT, têm sido usados para otimizar o processamento de dados jurídicos, mas enfrentam limitações com documentos longos devido ao custo computacional e à restrição de tokens. Com isso, este estudo tem o objetivo de comparar e avaliar métodos existentes na literatura para superar essas limitações. Os resultados indicam que métodos de seleção de sentenças melhoram o desempenho na classificação de documentos. Com isso, este trabalho tem em vista aprimorar a eficiência do sistema judiciário, alinhando-se aos objetivos do programa Justiça 4.0.

Referências

CNJ (2020). Resolução n. 332, de 21 de agosto de 2020. Diário da Justiça do Conselho Nacional de Justiça, Brasília, DF. Acesso em: 2 set. 2024.

CNJ and PNUD (2021). Cartilha justiça 4.0. Disponível em: [link].

de Almeida, N. D. and de Almeida Pinto, P. A. L. (2022). O uso da inteligência artificial como ferramenta de eficiência e acesso à justiça em revisão sistemática da literatura. Research, Society and Development, 11(11):e349111133674–e349111133674.

Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

do Carmo, F. A. (2024). Representações Embeddings Orientadas à Linguagem Jurídica Brasileira. Master’s thesis, Universidade Estadual do Maranhão, São Luís - MA.

Kalamkar, P., Tiwari, A., Agarwal, A., Karn, S., Gupta, S., Raghavan, V., and Modi, A. (2022). Corpus for automatic structuring of legal documents. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 4420–4429, Marseille, France. European Language Resources Association.

Martínez-Plumed, F., Contreras-Ochando, L., Ferri, C., Hernández-Orallo, J., Kull, M., Lachiche, N., Ramírez-Quintana, M. J., and Flach, P. (2019). Crisp-dm twenty years later: From data mining processes to data science trajectories. IEEE transactions on knowledge and data engineering.

Pappagari, R., Zelasko, P., Villalba, J., Carmiel, Y., and Dehak, N. (2019). Hierarchical transformers for long document classification. In 2019 IEEE automatic speech recognition and understanding workshop (ASRU).

Park, H., Vyas, Y., and Shah, K. (2022). Efficient classification of long documents using transformers. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, Dublin, Ireland. Association for Computational Linguistics.
Publicado
04/11/2024
ARAÚJO, Gabriele S.; CARMO, Fabrício A. do; SANTANA, Ewaldo E. C.; JACOB JUNIOR, Antonio F. L.; LOBATO, Fábio M. F.. Análise comparativa de métodos baseados em modelos de linguagem para documentos jurídicos longos. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 4. , 2024, Santarém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 18-21. DOI: https://doi.org/10.5753/erad-eramia-no2.2024.245617.