Use of Machine Learning Techniques for Organizing Digital Documents in PDF Format

Thiago Serafina Possamai; Luis Ricardo Fiera; Luciano Antunes; Marlon Oliveira

doi:10.5753/eniac.2025.13906

Thiago Serafina Possamai Unesc
Luis Ricardo Fiera Unesc
Luciano Antunes Unesc
Marlon Oliveira Unesc

DOI: https://doi.org/10.5753/eniac.2025.13906

Resumo

Este trabalho apresenta um sistema automatizado para organização de documentos PDF utilizando técnicas de Machine Learning, comparando Regressão Logística e BERT para tarefas de classificação. Utilizando dois conjuntos de dados públicos, que foram combinados para totalizar 4.901 documentos distribuídos em até cinco categorias, o estudo envolveu pré-processamento, extração de texto e codificação de categorias. Os modelos foram avaliados por acurácia, precisão, recall e F1-score, e integrados a uma API REST desenvolvida com Django. O BERT alcançou até 0,97 de acurácia e F1-score acima de 0,95, superando a Regressão Logística. Os resultados destacam a eficácia da IA avançada na melhoria da organização de documentos digitais.

Referências

Antonio, D. V. (2019). Implementação de protótipo baseado na tecnologia ocr aplicada ao reconhecimento de rótulos para busca em banco de dados.

Barreto, A. M. (2005). Informação e conhecimento na era digital. Transinformação, 17(2):1–12.

Cherguelaine, A. and Boubekri, F. (2024). Company documents dataset. Acesso em: 07 maio 2025.

Didatica, T. (2024). Introdução a redes neurais convolucionais. Acesso em: 13 out. 2024.

dos Reis, J. V. and Rodolpho, D. (2020). A saúde e segurança ocupacional na gestão de documentos empresariais. Revista Interface Tecnológica, 17(2):838–848.

Flayeh, A. K., Hamodi, Y. I., and Zaki, N. D. (2022). Text analysis based on natural language processing (nlp). pages 774–778.

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep learning. Acesso em: 13 out. 2024.

InsightLab, U. (2024). Aprenda a criar e treinar uma rede neural convolucional (cnn). Acesso em: 13 out. 2024.

Lai, S., Xu, L., Liu, K., and Zhao, J. (2015). Recurrent convolutional neural networks for text classification. page 2267–2273.

Muniswamaiah, M., Agerwala, T., and Tappert, C. C. (2023). Big data and data visualization challenges. pages 6227–6229.

Pajeú, H. M., Moura, R. R., and Carvalho, D. O. d. (2018). Organização e classificação para documentos digitais de arquivos pessoais nas nuvens. Ciência da Informação em Revista, 5(3):58–70.

Pereira, J. F. (2021). Processamento de linguagem natural aplicada na construção de uma agente conversacional por meio do ibm watson assistant.

Prathyakshini and Shetty, J. (2024). Deeptext: Pioneering the future of text classification with innovative deep learning techniques. pages 911–917.

Ribeiro, C. J. S. (2014). Big data: os novos desafios para o profissional da informação. Informação & Tecnologia, 1(1):96–105.

Silva, G. S., Ribeiro, L., and Dezani, H. (2023). Processamento da linguagem natural para análise de documentos jurídicos.

Statista (2021). Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. Acesso em: 05 jun. 2024.

Sunil, T. (2023). Text document classification dataset. Acesso em: 10 maio 2025.

Use of Machine Learning Techniques for Organizing Digital Documents in PDF Format

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)