Processamento de linguagem natural aplicado à classificação de decretos administrativos brasileiros

André Luís Ribeiro; Othávio Ruddá da Cunha  Araújo; Leonardo B.  Oliveira; Magna Maria Inácio

doi:10.5753/webmedia_estendido.2020.13063

André Luís Ribeiro UFMG
Othávio Ruddá da Cunha Araújo UFMG
Leonardo B. Oliveira UFMG
Magna Maria Inácio UFMG

DOI: https://doi.org/10.5753/webmedia_estendido.2020.13063

Resumo

Decretos administrativos são emitidos pelo Poder Executivo com o objetivo de controlar despesas, agências, ministérios e planos do governo. Apesar de serem textos de importância estratégica, no Brasil não existem classificações agregadas que explicitam as áreas de influência de cada um desses documentos. Sendo assim, neste trabalho apresentamos duas metodologias de classificação e sua automatização através de algoritmos clássicos e do estado da arte em aprendizado de máquina para modelagem textual. Nossos resultados explicitam desempenho de cerca de 80% de F1-score para alguns desses modelos, além de apresentarem uma visão geral desse tipo de dado e suas possibilidades e culminarem com a ampliação da transparência das ações e decisões do Poder Executivo Federal.

Referências

Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, and Ion Androut-sopoulos. 2019. Large-scale multi-label text classification on eu legislation. arXiv preprint arXiv:1906.02192 (2019).

N Correia Da Silva, FA Braz, TE de Campos, D Gusmao, F Chaves, D Mendes, D Bezerra, G Ziegler, L Horinouchi, M Ferreira, et al. 2018. Document typeclassifi cation for Brazil’s supreme court using a convolutional neural network. In10th International Conference on Forensic Computer Science and Cyber Law (ICoFCS),Sao Paulo, Brazil. 29–30.

Mita K Dalal and Mukesh A Zaveri. 2011. Automatic text classification: a technical review. International Journal of Computer Applications 28, 2 (2011), 37–40.

Aaron R Kaufman. 2020. Measuring the Content of Presidential Policy Making: Applying Text Analysis to Executive Branch Directives. Presidential Studies Quarterly50, 1 (2020), 90–106.

Pedro Henrique Luz de Araujo, Teófi lo Emídio de Campos, Fabricio Ataides Braz, and Nilton Correia da Silva. 2020. VICTOR: a Dataset for Brazilian Legal Documents Classification. In Proceedings of the 12th Language Resources and Evaluation Conference. European Language Resources Association, Marseille, France, 1449–1458. https://www.aclweb.org/anthology/2020.lrec-1.181

Luigi Nardi, David Koeplinger, and Kunle Olukotun. 2019. Practical design space exploration. In 2019 IEEE 27th International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASCOTS). IEEE,347–358.

JB Ruhl, John Nay, and Jonathan Gilligan. 2018. Topic Modeling the President.(2018).

Samir Undavia, Adam Meyers, and John E Ortega. 2018. A comparative study ofclassifying legal documents with neural networks. In 2018 Federated Conference on Computer Science and Information Systems (FedCSIS). IEEE, 515–522.

Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy.2016. Hierarchical attention networks for document classification. In Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies. 1480–1489.