Avaliação de Ferramentas de Extração de Texto em Documentos Jurídicos: Uma Análise de Soluções OCR e Baseadas em Texto

  • Aline M. B. Silva UEMA
  • Ewaldo E. C. Santana UEMA
  • Fábio M. F. Lobato UEMA / UFOPA
  • Antonio F. L. Jacob Junior UEMA

Resumo


Este estudo realiza uma análise comparativa de oito ferramentas de extração de texto aplicadas a documentos jurídicos em formato PDF, divididas entre técnicas de OCR e extração baseada em texto, utilizando a tarefa de classificação de texto jurídico como critério de avaliação da eficácia. As ferramentas avaliadas incluem PDFMiner, PDFX, PyPDF e PyMuPDF para documentos nato-digitais, e Pytesseract, docTR, EasyOCR e PaddleOCR para documentos digitalizados. Os testes foram conduzidos com documentos do sistema do Conselho Nacional de Justiça (CNJ), e os resultados evidenciaram que ferramentas de extração baseada em texto, como PDFX, demonstraram melhor desempenho em documentos nato-digitais, enquanto docTR se destacou entre as soluções de OCR. O estudo oferece insights valiosos para a escolha de ferramentas mais adequadas em cenários jurídicos, considerando a natureza dos documentos a serem processados.

Referências

Brasil (2015). Dispõe sobre o uso do meio eletrônico para a realização do processo administrativo no âmbito dos órgãos e das entidades da administração pública federal direta, autárquica e fundacional. diário oficial [da] república federativa do brasil. BRASIL. Decreto nº, 8539.

CNJ (2024). Justiça em números 2023. relatório CNJ, 2023.disponível em [link]. acesso 22 de ago de 2024. In Conselho Nacional de Justiça (CNJ).

González, J. A. G. (2023). La inteligencia artificial en el campo jurídico. Revista Académica CUNZAC, 6(2):96–103.

Neudecker, C., Baierer, K., Gerber, M., Clausner, C., Antonacopoulos, A., and Pletschacher, S. (2021). A survey of ocr evaluation tools and metrics. In Proceedings of the 6th International Workshop on Historical Document Imaging and Processing, pages 13–18.

Sancar, Y., Karabey Aksakallı, I., and Karacalı, T. (2023). Text classification-based petition recognition and routing system: a turkish case study. International Journal of Information Technology, 15(4):2139–2146.
Publicado
04/11/2024
SILVA, Aline M. B.; SANTANA, Ewaldo E. C.; LOBATO, Fábio M. F.; JACOB JUNIOR, Antonio F. L.. Avaliação de Ferramentas de Extração de Texto em Documentos Jurídicos: Uma Análise de Soluções OCR e Baseadas em Texto. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 4. , 2024, Santarém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 1-4. DOI: https://doi.org/10.5753/erad-eramia-no2.2024.245621.