Use of Machine Learning Techniques for Organizing Digital Documents in PDF Format
Abstract
This work presents an automated system for organizing PDF documents using Machine Learning, comparing Logistic Regression and BERT for classification tasks. Using two public datasets, which were combined to total 4,901 documents distributed across up to five categories, the study involved pre-processing, text extraction, and category encoding. Models were evaluated with accuracy, precision, recall, and F1-score, and integrated into a Django REST API. BERT achieved up to 0.97 accuracy and F1-score above 0.95, outperforming Logistic Regression. Results highlight the effectiveness of advanced AI in improving the organization of digital documents.
References
Barreto, A. M. (2005). Informação e conhecimento na era digital. Transinformação, 17(2):1–12.
Cherguelaine, A. and Boubekri, F. (2024). Company documents dataset. Acesso em: 07 maio 2025.
Didatica, T. (2024). Introdução a redes neurais convolucionais. Acesso em: 13 out. 2024.
dos Reis, J. V. and Rodolpho, D. (2020). A saúde e segurança ocupacional na gestão de documentos empresariais. Revista Interface Tecnológica, 17(2):838–848.
Flayeh, A. K., Hamodi, Y. I., and Zaki, N. D. (2022). Text analysis based on natural language processing (nlp). pages 774–778.
Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep learning. Acesso em: 13 out. 2024.
InsightLab, U. (2024). Aprenda a criar e treinar uma rede neural convolucional (cnn). Acesso em: 13 out. 2024.
Lai, S., Xu, L., Liu, K., and Zhao, J. (2015). Recurrent convolutional neural networks for text classification. page 2267–2273.
Muniswamaiah, M., Agerwala, T., and Tappert, C. C. (2023). Big data and data visualization challenges. pages 6227–6229.
Pajeú, H. M., Moura, R. R., and Carvalho, D. O. d. (2018). Organização e classificação para documentos digitais de arquivos pessoais nas nuvens. Ciência da Informação em Revista, 5(3):58–70.
Pereira, J. F. (2021). Processamento de linguagem natural aplicada na construção de uma agente conversacional por meio do ibm watson assistant.
Prathyakshini and Shetty, J. (2024). Deeptext: Pioneering the future of text classification with innovative deep learning techniques. pages 911–917.
Ribeiro, C. J. S. (2014). Big data: os novos desafios para o profissional da informação. Informação & Tecnologia, 1(1):96–105.
Silva, G. S., Ribeiro, L., and Dezani, H. (2023). Processamento da linguagem natural para análise de documentos jurídicos.
Statista (2021). Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2020, with forecasts from 2021 to 2025. Acesso em: 05 jun. 2024.
Sunil, T. (2023). Text document classification dataset. Acesso em: 10 maio 2025.
