Preprocessing Applied to Legal Text Mining: analysis and evaluation of the main techniques used

Marcos V. J. da Silva; Ewaldo E. Santana; Fábio M. F. Lobato; Antonio F. L. Jacob Jr.

doi:10.5753/eniac.2023.234555

Marcos V. J. da Silva Universidade Estadual do Maranhão
Ewaldo E. Santana Universidade Estadual do Maranhão
Fábio M. F. Lobato Universidade Estadual do Maranhão / Universidade Federal do Oeste Pará
Antonio F. L. Jacob Jr. Universidade Estadual do Maranhão

DOI: https://doi.org/10.5753/eniac.2023.234555

Resumo

A mineração de textos no contexto jurídico requer técnicas eficazes de pré-processamento para preparar os dados para análise. Dado o vocabulário jurídico único, é necessária uma abordagem meticulosa. A escolha das técnicas de pré-processamento pode influenciar significativamente a relevância das informações extraídas. Esta pesquisa investiga as tarefas cruciais de préprocessamento envolvidas na Mineração de Textos Jurídicos e avalia sistematicamente seu impacto em um problema de classificação. Por meio de uma série de experimentos, foram testadas oito diferentes tarefas de pré-processamento e suas combinações. Por fim, obteve-se que as tarefas com melhor desempenho combinado foram: remoção de números/dígitos; remoção de links e e-mails; transformação de maiúsculas em minúsculas; stemização; lematização e tokenização.

Palavras-chave: Mineração de Textos, Contexto Jurídico, Pré-processamento

Referências

Andrade, P. (2015). Aplicação de Técnicas de Mineração de Textos para Classificação de Documentos: um Estudo da Automatização da Triagem de Denúncias na CGU. Brasília, 2015. 65p. PhD thesis, Dissertação (Mestrado Profissional em Computação Aplicada). Disponível em . . . .

Castro, P. V. Q. d. (2019). Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico. PhD thesis, Universidade Federal de Goiás.

Chandrasekar, P. and Qian, K. (2016). The impact of data preprocessing on the performance of a naive bayes classifier. In 2016 IEEE 40th annual computer software and applications conference (COMPSAC), volume 2, pages 618–619. IEEE.

Cirqueira, D., Jacob, A., Lobato, F., de Santana, A. L., and Pinheiro, M. (2017). Performance evaluation of sentiment analysis methods for brazilian portuguese. In Business Information Systems Workshops: BIS 2016 International Workshops, Leipzig, Germany, July 6-8, 2016, Revised Papers 19, pages 245–251. Springer.

CNJ, C. N. D. J. (2022). A justiça em números - relatório analítico 2022.

das Neves Junior, R. B., de Medeiros Melo, W. F., de Araujo Fagundes, R. A., and Maciel, A. M. A. (2018). Extração de informação e mineração de dados no diário oficial de pernambuco. Revista de Engenharia e Pesquisa Aplicada, 3(3).

de Castro Júnior, A. P., Calixto, W. P., and de Castro, C. H. A. (2020). Aplicação da inteligência artificial na identificação de conexões pelo fato e tese jurídica nas petições iniciais e integração com o sistema de processo eletrônico. CNJ, page 9.

Faraco, F. M. (2020). Modelo de conhecimento baseado em tópicos de acórdãos para suporte à análise de petições iniciais. PhD thesis, Universidade Federal de Santa Catarina.

Ferreira, M. H. P. (2018). Classificação de peças processuais jurídicas: Inteligência artificial no direito.

Grancharova, M. and Jangefalk, M. (2018). Comparative study of the combined performance of learning algorithms and preprocessing techniques for text classification.

Gusmão, C., Figueiredo, K., and Brito, W. A. (2021). Técnicas de processamento de linguagem natural em denúncias criminais: Automatizaçao e classificaçao de texto em português coloquial. In Anais do XLVIII Seminário Integrado de Software e Hardware, pages 172–182. SBC.

Hagen, L. (2018). Content analysis of e-petitions with topic modeling: How to train and evaluate lda models? Information Processing & Management, 54(6):1292–1307.

Ișik, M. and Daǧ, H. (2020). The impact of text preprocessing on the prediction of review ratings. Turkish Journal of Electrical Engineering and Computer Sciences, 28(3):1405–1421.

Mastella, J. O. (2020). Uma metodologia usando ambientes paralelos para otimização da classificação de textos aplicada a documentos jurídicos. Master’s thesis, Pontifícia Universidade Católica do Rio Grande do Sul.

Pereira, J. C. M. and Rodrigues, M. V. J. (2021). A plataforma sinapses e a continuidade dos modelos de ia no judiciário. ANAIS do Encontro de Administração da Justiça-ENAJUS.

Ribeiro, E. R. et al. (2020). Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa.

Silva, J. A., Nogueira Jr, V., Oliveira, H., Barbosa, A., Vieira, T., and Oliveira, K. (2021). Avaliação de abordagens para classificação automática de documentos jurídicos: um estudo comparativo aplicado a petições do tribunal de justiça do estado de alagoas. Proceeding Series of the Brazilian Society of Computational and Applied Mathematics, 8(1).

Sousa, R. N. d. (2019). Minerjus: solução de apoio à classificação processual com uso de inteligência artificial.

Souza, E., Moriyama, G., Vitório, D., de Carvalho, A. C., Félix, N., Albuquerque, H. O., and Oliveira, A. L. (2021). Assessing the impact of stemming algorithms applied to brazilian legislative documents retrieval. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 227–236. SBC.

Wirth, R. and Hipp, J. (2000). Crisp-dm: Towards a standard process model for data mining. In Proceedings of the 4th international conference on the practical applications of knowledge discovery and data mining, volume 1, pages 29–39. Manchester.