Use of Machine Learning Techniques for Organizing Digital Documents in PDF Format

  • Thiago Serafina Possamai Unesc
  • Luis Ricardo Fiera Unesc
  • Luciano Antunes Unesc
  • Marlon Oliveira Unesc

Abstract


This work presents an automated system for organizing PDF documents using Machine Learning, comparing Logistic Regression and BERT for classification tasks. Using two public datasets, which were combined to total 4,901 documents distributed across up to five categories, the study involved pre-processing, text extraction, and category encoding. Models were evaluated with accuracy, precision, recall, and F1-score, and integrated into a Django REST API. BERT achieved up to 0.97 accuracy and F1-score above 0.95, outperforming Logistic Regression. Results highlight the effectiveness of advanced AI in improving the organization of digital documents.

References

Antonio, D. V. (2019). Implementação de protótipo baseado na tecnologia ocr aplicada ao reconhecimento de rótulos para busca em banco de dados.

Barreto, A. M. (2005). Informação e conhecimento na era digital. Transinformação, 17(2):1–12.

Cherguelaine, A. and Boubekri, F. (2024). Company documents dataset. Acesso em: 07 maio 2025.

Didatica, T. (2024). Introdução a redes neurais convolucionais. Acesso em: 13 out. 2024.

dos Reis, J. V. and Rodolpho, D. (2020). A saúde e segurança ocupacional na gestão de documentos empresariais. Revista Interface Tecnológica, 17(2):838–848.

Flayeh, A. K., Hamodi, Y. I., and Zaki, N. D. (2022). Text analysis based on natural language processing (nlp). pages 774–778.

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep learning. Acesso em: 13 out. 2024.

InsightLab, U. (2024). Aprenda a criar e treinar uma rede neural convolucional (cnn). Acesso em: 13 out. 2024.

Lai, S., Xu, L., Liu, K., and Zhao, J. (2015). Recurrent convolutional neural networks for text classification. page 2267–2273.

Muniswamaiah, M., Agerwala, T., and Tappert, C. C. (2023). Big data and data visualization challenges. pages 6227–6229.

Pajeú, H. M., Moura, R. R., and Carvalho, D. O. d. (2018). Organização e classificação para documentos digitais de arquivos pessoais nas nuvens. Ciência da Informação em Revista, 5(3):58–70.

Pereira, J. F. (2021). Processamento de linguagem natural aplicada na construção de uma agente conversacional por meio do ibm watson assistant.

Prathyakshini and Shetty, J. (2024). Deeptext: Pioneering the future of text classification with innovative deep learning techniques. pages 911–917.

Ribeiro, C. J. S. (2014). Big data: os novos desafios para o profissional da informação. Informação & Tecnologia, 1(1):96–105.

Silva, G. S., Ribeiro, L., and Dezani, H. (2023). Processamento da linguagem natural para análise de documentos jurídicos.

Statista (2021). Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. Acesso em: 05 jun. 2024.

Sunil, T. (2023). Text document classification dataset. Acesso em: 10 maio 2025.
Published
2025-09-29
POSSAMAI, Thiago Serafina; FIERA, Luis Ricardo; ANTUNES, Luciano; OLIVEIRA, Marlon. Use of Machine Learning Techniques for Organizing Digital Documents in PDF Format. In: NATIONAL MEETING ON ARTIFICIAL AND COMPUTATIONAL INTELLIGENCE (ENIAC), 22. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 1751-1760. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2025.13906.

Most read articles by the same author(s)