Uso de Aprendizado de Máquina para a Classificaçãao de Documentos do Exército Brasileiro
Resumo
A cada semestre o Exército Brasileiro gera relatórios sumarizados a respeito de cada militar e suas atividades. Para isso é necessário encontrar referências relevantes a cada militar dentro de um conjunto de documentos produzidos periodicamente no intervalo de seis meses. Este trabalho propõe formas de realizar essa classificação de maneira automática, utilizando o método Naive Bayes de aprendizado probabilístico. Para isso, também é necessário identificar quais sentenças em um documento são relativas a cada militar, de modo que apenas elas sejam usadas durante o treinamento do classificador. Assim, este trabalho propõe duas heurísticas de seleção de sentenças que escolhem trechos de texto que aparecem próximos ao nome de cada militar. Os experimentos mostram que é possível atingir 76, 7% de medida-f na recuperação de documentos relevantes, e que a seleção de sentenças e o tamanho da base de treinamento desempenham papéis importantes na tarefa.
Referências
Exército (2002). Separata ao Boletim do Exército Número 08: Instruções Gerais para a Correspondência, as Publicações e os Atos Administrativos no Âmbito do Exército (IG 10-42). Gabinete do Comandante do Exército, Brasilia.
Goldstein, J., Kantrowitz, M., Mittal, V., and Carbonell, J. (1999). Summarizing text documents: sentence selection and evaluation metrics. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, New York. ACM.
Koga, M. L. (2011). Classicadores Bayesianos: Aplicados a análise sintática da língua portuguesa. In Escola Politécnica da Universidade de São Paulo, São Paulo.
Metzler, D. and Kanungo, T. (2008). Machine learned sentence selection strategies for query-biased summarization. In SIGIR Learning to Rank Workshop.
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill Science/Engineering/Math.
Peng, F., Schuurmans, D., and Wang, S. (2004). Augmenting naive bayes classiers with statistical language models. Inf. Retr., pages 317–345.
Rabelo, J. P., Filho, M. A., and Oliveira, T. (2011). Mineração de Textos Através do Algoritmo de Classicação. In Instituto de Matemática. Universidade Federal da Bahia (UFBA), Salvador.
Rezende, S. O. (2005). Sistemas Inteligentes. Fundamentos e Aplicação. Editora Manole Ltda, Barueri.
Rigo, S. J., Oliveira, J. P. M., and Barbieri, C. (2007). Classicação de Textos Baseada em Ontologias de Domínio. In Anais do XXXVII Congresso da Sociedade Brasileira de Computação V Workshop em Tecnologia da Informação e da Linguagem Humana, Rio de Janeiro.
Silva, C. F. and Vieira, R. (2007). Categorização de Textos da Língua Portuguesa com íArvores de Decisão, SVM e Informações Linguísticas. In Anais do XXVII Congresso da Sociedade Brasileira de Computação. V Workshop de Tecnologia da Informação e da Linguagem Humana, Rio de Janeiro.
Wang, D., Zhu, S., Li, T., and Gong, Y. (2012). Comparative document summarization via discriminative sentence selection. ACM Transactions on Knowledge Discovery from Data.