Embeddings Jurídico: Representações Orientadas à Linguagem Jurídica Brasileira
Resumo
O processamento automático de textos jurídicos dispostos em linguagem natural proporciona o desenvolvimento de diversas aplicações para o setor, como a classificação de processos por assunto, sumarização de documentos, tradução para linguagem cidadã etc. Nesse sentido, o judiciário brasileiro lançou o programa Justiça 4.0, buscando soluções que ofereçam celeridade nas atividades processuais. Convém pontuar que a linguagem técnica predomina nesse domínio de aplicação, o que adiciona desafios para modelagem dos dados, exigindo modelos especializados para o segmento. Frente ao exposto, esse trabalho tem como objetivo a construção de modelos embeddings orientados ao âmbito jurídico visando alimentar aplicações na área. Para isso, foram extraídos aproximadamente 500.000 documentos de instituições de justiça do Brasil das mais variadas esferas (civil, criminal, trabalhista etc). Os modelos foram avaliados por meio da classificação de petições iniciais e os resultados mostraram-se competitivos quando comparados a modelos generalistas da língua portuguesa. Tais resultados mostram que modelos treinados com documentos jurídicos compreendem melhor as especificidades da linguagem do segmento e têm o potencial de fomentar novas aplicações para o setor.
Referências
Batista, H., Nascimento, A., Melo, R., Miranda, P., Maldonado, I., and Filho, J. C. (2021). A comparative analysis of text embedding approach to extract named entities in portuguese legal documents. In Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional, pages 221–232, Porto Alegre, RS, Brasil. SBC.
Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the association for computational linguistics, 5:135–146.
Chalkidis, I. and Kampas, D. (2019). Deep learning in law: early adaptation and legal word embeddings trained on large corpora. Artificial Intelligence and Law, 27(2).
Consoli, B., Santos, J., Gomes, D., Cordeiro, F., Vieira, R., and Moreira, V. (2020). Embeddings for named entity recognition in geoscience Portuguese literature. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 4625–4630, Marseille, France. European Language Resources Association.
Cunha, L. F., Almeida, J. J. a., and Simões, A. (2022). Reasoning with Portuguese Word Embeddings. In Cordeiro, J. a., Pereira, M. J. a., Rodrigues, N. F., and Pais, S. a., editors, 11th Symposium on Languages, Applications and Technologies (SLATE 2022), volume 104 of Open Access Series in Informatics (OASIcs), pages 17:1–17:14, Dagstuhl, Germany. Schloss Dagstuhl – Leibniz-Zentrum für Informatik.
Dal Pont, T. R., Sabo, I. C., Hübner, J. F., and Rover, A. J. (2020). Impact of text specificity and size on word embeddings performance: An empirical evaluation in brazilian legal domain. In Intelligent Systems: 9th Brazilian Conference, BRACIS 2020, Rio Grande, Brazil, October 20–23, 2020, Proceedings, Part I, page 521–535.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.
Garcia, A. C. (2020). Ética e inteligencia artificial. Computação Brasil, 43:14–22.
Gomes, D. d. S. M., Cordeiro, F. C., Consoli, B. S., Santos, N. L., Moreira, V. P., Vieira, R., Moraes, S., and Evsukoff, A. G. (2021). Portuguese word embeddings for the oil and gas industry: development and evaluation. Computers in Industry, 124:103347.
Hariri, R. H., Fredericks, E. M., and Bowers, K. M. (2019). Uncertainty in big data analytics: survey, opportunities, and challenges. Journal of Big Data, 6(1):44.
Hartmann, N. S., Fonseca, E. R., Shulby, C. D., Treviso, M. V., Rodrigues, J. S., and Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. In Anais do XI Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, Porto Alegre, RS, Brasil. SBC.
Hirschberg, J. and Manning, C. D. (2015). Advances in natural language processing. Science, 349(6245):261–266.
Le-Khac, P. H., Healy, G., and Smeaton, A. F. (2020). Contrastive representation learning: A framework and review. IEEE Access, 8:193907–193934.
Marinato, M., Junior, A. J., Lobato, F., and Cortes, O. (2022). Classificação automática de petições iniciais usando classificadores combinados. In Anais do XVI Brazilian e-Science Workshop, pages 89–96, Porto Alegre, RS, Brasil. SBC.
Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. In 1st International Conference on Learning Representations, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop Track Proceedings.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., and Dean, J. (2013b). Distributed representations of words and phrases and their compositionality. In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, NIPS’13, page 3111–3119, Red Hook, NY, USA. Curran Associates Inc.
Mota, C., Lima, A., Nascimento, A., Miranda, P., and de Mello, R. (2020). Classificação de páginas de petições iniciais utilizando redes neurais convolucionais multimodais. In Anais do XVII Encontro Nacional de Inteligência Artificial e Computacional, pages 318–329, Porto Alegre, RS, Brasil. SBC.
Parreiras, M., Vasconcellos, A., Mangeli, E., Yamamoto, E., Xexéo, G., Metello, I., Costa, L., Marques, P., and Souza, J. (2022). Inteligência artificial aplicada para o aumento da produtividade no atendimento de intimações. In Anais do X Workshop de Computação Aplicada em Governo Eletrônico, pages 180–191, Porto Alegre, RS, Brasil. SBC.
Pereira, J. C. M. and Rodrigues, M. V. J. (2021). A plataforma sinapses e a continuidade dos modelos de ia no judiciário. In ANAIS do Encontro de Administração da Justiça - ENAJUS 2021, Lisboa.
Pinto, H. A. (2020). A utilização da inteligência artificial no processo de tomada de decisões: por uma necessária accountability. Revista de Informação Legislativa: RIL.
Polo, F., Mendonça, G., Parreira, K., Gianvechio, L., Cordeiro, P., Ferreira, J., Lima, L., Maia, A., and Vicente, R. (2021). Legalnlp natural language processing methods for the brazilian legal language. In Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional, pages 763–774, Porto Alegre, RS, Brasil. SBC.
Qader, W. A., Ameen, M. M., and Ahmed, B. I. (2019). An overview of bag of words;importance, implementation, applications, and challenges. In 2019 International Engineering Conference (IEC), pages 200–204.
Schaulet, E. and Trez, G. (2021). Big data em organizações de médio e grande porte do setor público brasileiro: Prontidão e situação atual, replicação do estudo holandês de klievink et al. (2017). In Anais do IX Workshop de Computação Aplicada em Governo Eletrônico, pages 13–24, Porto Alegre, RS, Brasil. SBC.
Smywiński-Pohl, A., Lasocki, K., Wróbel, K., and Strzała, M. (2019). Automatic construction of a polish legal dictionary with mappings to extra-legal terms established via word embeddings. In Proceedings of the Seventeenth International Conference on Artificial Intelligence and Law, ICAIL ’19, page 234–238, New York, NY, USA. Association for Computing Machinery.
Sousa, A. W. and Del Fabro, M. D. (2019). Iudicium textum dataset uma base de textos jurıdicos para nlp. In XXXIV Simpósio Brasileiro de Banco de Dados: Dataset Showcase Workshop, SBBD, pages 1–11, Fortaleza, Brazil. SBBD.
Wang, Z., Wu, Y., Lei, P., and Peng, C. (2020). Named entity recognition method of brazilian legal text based on pre-training model. Journal of Physics: Conference Series, 1550(3):032149.
Zhong, H., Xiao, C., Tu, C., Zhang, T., Liu, Z., and Sun, M. (2020). How does NLP benefit legal system: A summary of legal artificial intelligence. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5218–5230, Online. Association for Computational Linguistics.