Recuperação e mineração de informações para a área criminal

Fabrício J. Barth; Maria Cristina Belderrain; Nádia L. P. Quadros; Luciane L. Ferreira; Antonio P. Timoszczuk

Fabrício J. Barth Fundação Atech Tecnologias
Maria Cristina Belderrain Fundação Atech Tecnologias
Nádia L. P. Quadros Fundação Atech Tecnologias
Luciane L. Ferreira Fundação Atech Tecnologias
Antonio P. Timoszczuk Fundação Atech Tecnologias

Resumo

Este artigo descreve o protótipo de um sistema de recuperação de informação projetado para processar fontes de informação estruturada e não-estruturada. Tais fontes são pesquisadas a partir de uma consulta onde os termos escolhidos pelo usuário podem ser expandidos mediante confronto com uma ontologia de domínio. Os documentos recuperados são então submetidos a algoritmos de agrupamento e de identificação de entidades nomeadas. Ambos são técnicas de mineração de texto que colocam em evidência as relações entre os documentos e permitem a apresentação gráfica das mesmas ao usuário. A avaliação apresentada neste trabalho foi realizada em um ambiente de investigação criminal.

Referências

Bikel, D., Miller, S., Schwartz, R., and Weischedel, R. (1997). Nymble: a highperformance learning name-finder. In Proceedings of ANLP-97, pages 194–201.

Bonino, D., Corno, F., Farinetti, L., and Bosca, A. (2004). Ontology driven semantic search. WSEAS Transaction on Information Science and Application, 1(6):1597–1605.

Freitag, D. and McCallum, A. (2000). Information extraction with HMM structures learned by stochastic optimization. In AAAI/IAAI, pages 584–589.

Jain, A. K., Murty, M. N., and Flynn, P. J. (1999). Data clustering: a review. ACM Computing Surveys, 31(3):264–323.

Júnior, C. M. F. and de Lima Dantas, G. F. (2006). A descoberta e a análise de vínculos na complexidade da investigação criminal moderna. Adquirido no site do Ministério da Justiça [link] em agosto de 2006.

Manning, C. D. and Schütze, H. (2003). Foundations of Statistical Natural Language Processing. MIT Press.

Metz, J. and Monard, M. C. (2006). Estudo e análise das diversas representações e estruturas de dados utilizadas nos algoritmos de clustering hierárquico. Technical report, Instituto de Ciências Matemáticas e de Computação. Universidade de São Paulo. São Carlos, São Paulo. Brasil.

Porter, M. (1980). An algorithm for suffix stripping program. Program, 14(3):130–137.

Salton, G. and Buckley, C. (1988). Term weighting approaches in automatic text retrieval. Information Processing and Management, 24:513–523.

Uschold, M. and Gruninger, M. (1996). Ontologies: Principles, methods and applications. The Knowledge Engineering Review.