Análise Comparativa de Algoritmos de Mineração de Texto Aplicados a Históricos de Contas Públicas

  • Breno Santos Universidade Federal de Sergipe
  • Methanias Júnior Universidade Federal de Sergipe
  • Bruno Paixão Universidade Federal de Sergipe
  • Rafael Santos Universidade Federal de Sergipe
  • André Nascimento Universidade Federal de Sergipe
  • Hallan Santos Tribunal de Contas de Sergipe
  • Wallace Filho Tribunal de Contas de Sergipe
  • Arquimedes Medeiros Tribunal de Contas de Sergipe

Resumo


Grandes massas de dados são geradas pelas aplicações que apoiam as atividades rotineiras dos órgãos públicos. Uma parcela significativa destes dados está em formato textual, sendo cabível o uso da Mineração de Texto, para extrair conhecimento potencialmente útil e previamente desconhecido. O objetivo deste artigo é avaliar o desempenho e qualidade de 3 algoritmos de mineração de texto aplicados à classificação de irregularidades em históricos de contas públicas, custodiadas pelo Tribunal de Contas de Sergipe. Para realizar a avaliação, foi desenvolvida uma ferramenta que implementa os algoritmos, bem como foi realizado um estudo de caso que avaliou métricas de desempenho e qualidade, tais como: Tempo Médio de Execução, Acurácia, Precisão, Cobertura e Medida F. Os resultados evidenciaram que o algoritmo Naïve Bayes Multinomial, com Frequência Inversa, foi a melhor abordagem para detectar evidências de irregularidades em pagamentos de diárias.

Palavras-chave: Mineração de Texto, Históricos de Contas Públicas, Tribunal de Contas, Auditoria

Referências

Araújo, I. da P. S. 1998. Introdução à auditoria: breves apontamentos de aula aplicáveis à área governamental. Egba, Salvador, BA.

Araújo, I. da P. S. 2006. Introdução à Auditoria Operacional (3rd. ed.). FGV Editora, Rio de Janeiro, RJ.
Balinski, R. 2002. Filtragem de informações no ambiente do direito. Master’s thesis. Federal University of Rio Grande do Sul (UFRGS), Porto Alegre, Brazil.

Bramer, M. 2007. Principles of data mining. Springer London, New York, NY.

Castro, D. P. de. 2009. Auditoria e controle interno na administração pública: evolução do controle interno no Brasil: do código de contabilidade de 1992 até a criação da CGU em 2003: guia para atuação das auditorias e organização dos controles internos nos estados, municípios e ONGs (2nd. ed.). Atlas, São Paulo, SP.

Colaço Jr., M. 2004. Projetando sistemas de apoio à decisão baseados em data warehouse. Axcel Books, Rio de Janeiro, RJ.

Feldman, R. and Dagan, I. 1995. Knowledge Discovery in Textual Databases (KDT). (1995). Retrieved February 1, 2015 from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.47 .7462&rep=rep1&type=pdf.

Han, J., Kamber, M. and Pei, J. 2011. Data mining: concepts and techniques (3rd. ed.). Morgan Kaufmann Publishers, San Francisco, CA.

Kibriya, A. M., Frank, E., Pfahringer, B. and Holmes, G. 2005. Multinomial naive bayes for text categorization revisited. (2005). Retrieved January 3, 2015 from http://link.springer.com/content/pdf/10.1007%2F978-3-540- 30549-1_43.pdf.

Lamkanfi, A., Demeyer, S., Soetens, Q. D. and Verdonck, T. 2011. Comparing mining algorithms for predicting the severity of a reported bug. (2011). Retrieved January 3, 2015 from http://ieeexplore.ieee.org/ielx5/5740650/5741244/05741332. pdf?tp=&arnumber=5741332&isnumber=5741244.

Magalhães, C. C. 2008. MinerJur: uma ferramenta para mineração de bases de jurisprudência. Master’s thesis. Salvador University (UNIFACS), Salvador, Brazil.

Mccallum, A. and Nigam, K. 1998. A comparison of event models for naive bayes text classification. (1998).
Retrieved January 5, 2015 from http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=6D 492C0CABE07EEE0E3BF2DCD8DC1628?doi=10.1.1.46.1 529&rep=rep1&type=pdf.

Pinho, R. C. de S. 2007. Fundamentos de auditoria: auditoria contábil: outras aplicações de auditoria. Atlas, São Paulo, SP.

Sá, H. R. de. 2008. Seleção de características para classificação de texto. Federal University of Pernambuco, Recife, PE.

Silva, M. M. da. 2012. Curso de auditoria governamental: de acordo com as normas internacionais de auditoria pública aprovadas pela INTOSAI (2nd. ed.). Atlas, São Paulo, SP.

Soares, A. M. 2010. A mineração de texto na análise de contas públicas municipais. Master’s thesis. State University of Ceará, Fortaleza, Brazil.

Sousa, M. U. R. dos S. de. 2009. Mineração de dados aplicada à celeridade processual do tribunal de contas do estado de Pernambuco (TCE-PE). Master’s thesis. Federal University of Pernambuco, Recife, Brazil.

Souza, J. G. de. 2011. Uma aplicação de mineração de texto para descoberta de características psicológicas de indivíduos. Federal University of Sergipe, Itabaiana, SE.

Ting, S. L., Ip, W. H. and Tsang, A. H. C. 2011. Is Naïve Bayes a Good Classifier for Document Classification?. (July 2011). Retrieved January 10, 2015 from http://www.sersc.org/journals/IJSEIA/vol5_no3_2011/4.pdf.

Tribunal de Contas de Sergipe. 2009. SISAP. (2009). Retrieved January 10, 2015 from http://www.tce.se.gov.br/sitev2/sisap.php.

Vijayarani, S. and Muthulakshmi, S. 2013. Comparative analysis of bayes and lazy classification algorithms. (August 2013) Retrieved January 10, 2015 from http://www.ijarcce.com/upload/2013/august/34-hUma%20Gopalakrishnan%20- Comparative%20Analysis%20of%20Bayes%20and%20Lazy %20classification%20algorithms.pdf.

Weiss, S. M., Indurkhya, N. and Zhang, T. 2010. Fundamentals of predictive text mining. Springer London, New York, NY.

Weiss, S. M., Indurkhya, N., Zhang, T and Damerau, F. J. 2005. Text mining: predictive methods for analyzing unstructured information. Springer Science+Business Media, New York, NY.

Wives, L. K. 2002. Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. (January 2002). Retrieved January 1, 2015 from http://www.leandro.wives.nom.br/pt-br/publicacoes/eq.pdf.
Publicado
26/05/2015
Como Citar

Selecione um Formato
SANTOS, Breno; JÚNIOR, Methanias; PAIXÃO, Bruno; SANTOS, Rafael; NASCIMENTO, André; SANTOS, Hallan; FILHO, Wallace; MEDEIROS, Arquimedes. Análise Comparativa de Algoritmos de Mineração de Texto Aplicados a Históricos de Contas Públicas. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 11. , 2015, Goiânia. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 667-674. DOI: https://doi.org/10.5753/sbsi.2015.5874.