Sumarização de Denúncias: Proposta e Avaliação de Métodos de Geração de Resumos

  • Eduardo de Paiva CGU / UFRJ
  • Fernando Sola Pereira CGU
  • Nelson Ebecken UFRJ

Resumo


O ordenamento jurídico brasileiro permite que qualquer cidadão faça denúncias sobre irregularidades que estejam acontecendo na Administração Pública. No entanto, o volume de informações presentes nos textos das denúncias torna o seu tratamento muito custoso. Dessa forma, surge a necessidade de métodos de sumarização capazes de resumir os textos das denúncias. O objetivo desse artigo é propor e avaliar duas estratégias de sumarização de denúncias: uma baseada no modelo de linguagem BERT e outra em frequência de palavras. O estudo concluiu que, para o propósito em questão, os resumos gerados pelo modelo BERT eram melhores que os gerados pela frequência de palavras.
Palavras-chave: processamento de linguagem natural, sumarização textual, tratamento de denúncias

Referências

Abdel-Salam, S. and Rafea, A. (2022). Performance study on extractive text summarization using bert models. Information, 13(2):67.

de Paiva, E. and Pereira, F. S. (2021). Extraction and enrichment of features to improve complaint text classification performance. In Anais do XVIII Encontro Nacional de Inteligência Artificial e Computacional, pages 338–349. SBC.

Devlin, J., Chang, M. W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL HLT 2019 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Proceedings of the Conference, 1(Mlm):4171– 4186.

Dong, Y., Mircea, A., and Cheung, J. C. (2020). Discourse-aware unsupervised summarization of long scientific documents. arXiv preprint arXiv:2005.00513.

Edmundson, H. P. (1969). New methods in automatic extracting. Journal of the ACM (JACM), 16(2):264–285.

Erkan, G. and Radev, D. R. (2004). Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of artificial intelligence research, 22:457–479.

Jornal Ferreira, J. C. and Patino, C. M. (2015). What does the p value really mean? Brasileiro de Pneumologia, 41(5):485.

Ghodratnama, S., Beheshti, A., Zakershahrak, M., and Sobhanmanesh, F. (2020). Extractive document summarization based on dynamic feature space mapping. IEEE Access, 8:139084–139095.

Gu, X., Wang, Z., Bi, Z., Meng, Y., Liu, L., Han, J., and Shang, J. (2021). Ucphrase: Unsupervised context-aware quality phrase tagging. arXiv preprint arXiv:2105.14078.

Kosmajac, D. and Keselj, V. (2019). Automatic text summarization of news articles in serbian language. In 2019 18th International Symposium INFOTEH-JAHORINA (INFOTEH), pages 1–6. IEEE.

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. ArXiv, abs/1907.11692.

Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of research and development, 2(2):159–165.

Mihalcea, R. and Tarau, P. (2004). Textrank: Bringing order into text. In Proceedings of the 2004 conference on empirical methods in natural language processing, pages 404–411.

Miller, D. (2019). Leveraging bert for extractive text summarization on lectures. arXiv preprint arXiv:1906.04165.

Nenkova, A. and Vanderwende, L. (2005). The impact of frequency on summarization.

Microsoft Research, Redmond, Washington, Tech. Rep. MSR-TR-2005, 101.

Steinberger, J., Jezek, K., et al. (2004). Using latent semantic analysis in text summarization and summary evaluation. Proc. ISIM, 4(93-100):8.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 2017-Decem(Nips):5999–6009.
Publicado
31/07/2022
PAIVA, Eduardo de; PEREIRA, Fernando Sola; EBECKEN, Nelson. Sumarização de Denúncias: Proposta e Avaliação de Métodos de Geração de Resumos. In: WORKSHOP DE COMPUTAÇÃO APLICADA EM GOVERNO ELETRÔNICO (WCGE), 10. , 2022, Niterói. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 121-132. ISSN 2763-8723. DOI: https://doi.org/10.5753/wcge.2022.223020.