Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações

Michele A. Brandão; Mariana O. Silva; Gabriel P. Oliveira; Henrique R. Hott; Anísio M. Lacerda; Gisele L. Pappa

doi:10.5753/sbbd.2023.231658

Michele A. Brandão Universidade Federal de Minas Gerais / Institudo Federal de Minas Gerais
Mariana O. Silva Universidade Federal de Minas Gerais
Gabriel P. Oliveira Universidade Federal de Minas Gerais https://orcid.org/0000-0002-7210-6408
Henrique R. Hott Universidade Federal de Minas Gerais
Anísio M. Lacerda Universidade Federal de Minas Gerais
Gisele L. Pappa Universidade Federal de Minas Gerais

DOI: https://doi.org/10.5753/sbbd.2023.231658

Resumo

A classificação de documentos de licitações públicas é uma tarefa relevante para órgãos públicos e privados que buscam informações precisas sobre tais processos. Neste trabalho, investigamos o impacto de diferentes abordagens de pré-processamento e modelos de representação textual por word embeddings na eficácia da classificação de documentos de licitação. Os resultados evidenciam que o pré-processamento não impacta significativamente no resultado da classificação e que a representação textual é um aspecto importante para que as classes de documentos sejam mais representativas.

Palavras-chave: dados abertos governamentais, classificação de documentos, pré-processamento de texto, representação textual

Referências

Albalawi, Y., Buckley, J., and Nikolov, N. S. (2021). Investigating the impact of pre-processing techniques and pre-trained word embeddings in detecting arabic health information on social media. J. Big Data, 8(1):95.

Bambroo, P. and Awasthi, A. (2021). Legaldb: long distil-bert for legal document classification. In 2021 International Conference on Advances in Electrical, Computing, Communication and Sustainable Technologies (ICAECT), pages 1–4. IEEE.

Belém, F. M., Ganem, M., França, C., Carvalho, M., Laender, A. H. F., and Gonçalves, M. A. (2022). Reforço e delimitação contextual para reconhecimento de entidades e relações em documentos oficiais. In SBBD, pages 292–303. SBC.

Church, K. W. (2017). Word2vec. Natural Language Engineering, 23(1):155–162.

Coelho, G. M., Ramos, A. C., de Sousa, J., Cavaliere, M., de Lima, M. J., Mangeth, A., Frajhof, I. Z., Cury, C., and Casanova, M. A. (2022). Text classification in the brazilian legal domain. In ICEIS (1), pages 355–363.

de Araujo, P. H. L., de Almeida, A. P. G. S., Braz, F. A., da Silva, N. C., de Barros Vidal, F., and de Campos, T. E. (2023). Sequence-aware multimodal page classification of brazilian legal documents. Int. J. Document Anal. Recognit., 26(1):33–49.

Kim, H.-Y. (2014). Statistical notes for clinical researchers: Nonparametric statistical methods: 2. nonparametric methods for comparing three or more groups and repeated measures. Restorative Dentistry & Endodontics, 39(4):329–332.

Lima, M., Silva, R., Lopes de Souza Mendes, F., R. de Carvalho, L., Araujo, A., and de Barros Vidal, F. (2020). Inferring about fraudulent collusion risk on Brazilian public works contracts in official texts using a Bi-LSTM approach. In Findings of the Association for Computational Linguistics, pages 1580-1588, Online. Association for Computational Linguistics.

Luz de Araujo, P. H., de Campos, T. E., Ataides Braz, F., and Correia da Silva, N. (2020). VICTOR: a dataset for Brazilian legal documents classification. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 1449–1458, Marseille, France. European Language Resources Association.

Noguti, M. Y., Vellasques, E., and Oliveira, L. S. (2020). Legal document classification: An application to law area prediction of petitions to public pro-secution service. In 2020 International Joint Conference on Neural Networks, IJCNN 2020, Glasgow, United Kingdom, July 19-24, 2020, pages 1–8. IEEE.

Oliveira, G. P., Reis, A. P. G., Mendes, B. M. A., Bacha, C. A., Costa, L. L., Canguçu, G. L., Silva, M. O., Caetano, V., Brandão, M. A., Lacerda, A., and Pappa, G. L. (2022). Ferramentas open-source de qualidade de dados para licitações públicas: Uma análise comparativa. In SBBD, pages 116–127. SBC.

Pennington, J., Socher, R., and Manning, C. D. (2014). Glove: Global vectors for word representation. In EMNLP, pages 1532–1543. ACL.

Poetsch, M., Correa, U. B., and de Freitas, L. A. (2019). A word embedding analysis towards ontology enrichment. Res. Comput. Sci., 148(11):153–164.

Silva, M. O., Paula, A. F., Oliveira, G. P., Vaz, I. A. D., Hott, H., Gomide, L. D., Reis, A. P. G., Mendes, B. M. A., Bacha, C. A., Costa, L. L., Brandão, M. A., Lacerda, A., and Pappa, G. L. (2022). LiPSet: Um conjunto de Dados com Documentos Rotulados de Licitações Públicas. In SBBD DSW, pages 13–24, Porto Alegre, RS, Brasil. SBC.

Souza Júnior, A. P., Cecilio, P., Viegas, F., Cunha, W., de Albergaria, E. T., and da Rocha, L. C. D. (2022). Evaluating topic modeling pre-processing pipelines for portuguese texts. In WebMedia, pages 191–201. ACM.

Zhang, J., Li, Y., Tian, J., and Li, T. (2018). Lstm-cnn hybrid model for text classification. In 2018 IEEE 3rd Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), pages 1675–1680. IEEE.