Ferramenta para Classificação de Denúncias: Uma abordagem Baseada em Textos e Dados Estruturados

Resumo


No Brasil, os cidadãos podem fazer denúncias de irregularidades na Administração Pública. Porém, para serem apuradas, essas denúncias precisam de uma análise prévia. Essa análise é custosa e considera outras informações que não estão nos textos das denúncias. Sendo assim, o objetivo dessa pesquisa é desenvolver um modelo de classificação de denúncias que é composto pela combinação de outros dois modelos: um baseado em um conjunto de dados estruturados, que são obtidos a partir de elementos extraídos dos textos das denúncias e complementados com informações de bases de dados externas e outro obtido pelo processamento direto dos textos das denúncias.

Palavras-chave: Processamento de linguagem natural, Aprendizado de máquina

Referências

Beltagy, I., Peters, M. E., and Cohan, A. (2020). Longformer: The long-document transformer. ArXiv, abs/2004.05150.

Coussement, K. and Van den Poel, D. (2008). Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems, 44(4):870–882.

de Paiva, E. and Pereira, F. S. (2021). Extraction and enrichment of features to improve complaint text classification performance. In Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional, pages 338–349. SBC.

Devlin, J., Chang, M. W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 1(Mlm):4171– 4186.

Feldman, R., Sanger, J., et al. (2007). The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge university press.

Gu, X., Wang, Z., Bi, Z., Meng, Y., Liu, L., Han, J., and Shang, J. (2021). Ucphrase: Unsupervised context-aware quality phrase tagging. arXiv preprint arXiv:2105.14078.

Karthikeyan, T., Sekaran, K., D., R., V., V. K., and M, B. J. (2019). Personalized content extraction and text classification using effective web scraping techniques. Int. J. Web Portals, 11(2):41–52.

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. ArXiv, abs/1907.11692.

Miller, D. (2019). Leveraging bert for extractive text summarization on lectures. arXiv preprint arXiv:1906.04165.

Paiva, E., Paim, A., and Ebecken, N. (2021). Convolutional neural networks and long short-term memory networks for textual classification of information access requests. IEEE Latin America Transactions, 19(5):826–833.

Pappagari, R., Zelasko, P., Villalba, J., Carmiel, Y., and Dehak, N. (2019). Hierarchical transformers for long document classification. In 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pages 838–844. IEEE.

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: pretrained BERT models for Brazilian Portuguese. In 9th Brazilian Conference on Intelligent Systems, BRACIS, Rio Grande do Sul, Brazil, October 20-23 (to appear).

Sun, C., Qiu, X., Xu, Y., and Huang, X. (2019). How to Fine-Tune BERT for Text Classification? Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11856 LNAI(2):194– 206.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 2017-Decem(Nips):5999–6009.

Wu, L., Morstatter, F., and Liu, H. (2018). Slangsd: building, expanding and using a sentiment dictionary of slang words for short-text sentiment classification. Lang. Resour. Evaluation, 52(3):839–852.

Zaheer, M., Guruganesh, G., Dubey, K. A., Ainslie, J., Alberti, C., Ontanon, S., Pham, P., Ravula, A., Wang, Q., Yang, L., and Ahmed, A. (2020). Big bird: Transformers for longer sequences. In Advances in Neural Information Processing Systems, volume 33, pages 17283–17297.
Publicado
16/05/2022
Como Citar

Selecione um Formato
PAIVA, Eduardo de; EBECKEN, Nelson. Ferramenta para Classificação de Denúncias: Uma abordagem Baseada em Textos e Dados Estruturados. In: WORKSHOP DE TESES E DISSERTAÇÕES EM SISTEMAS DE INFORMAÇÃO - SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 18. , 2022, Curitiba/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 83-90. DOI: https://doi.org/10.5753/sbsi_estendido.2022.222736.