Um método para identificar regras de associação utilizando somente os logs de acesso de um servidor web
Resumo
Padrões de uso de um site podem ser usados para personalizar os serviços, identificar o perfil de consumidores e personalizar a navegação. Para identificar esses padrões usando cadeias de navegação contidas nos arquivos de log de acessos de servidores web é necessário segmentar os registros em sessões de usuário. Como o protocolo HTTP não armazena essas informações, deve ser traçada alguma estratégia para agrupar registros em sessões. Este artigo descreve um método para identificar regras de associação entre páginas de um web site que utiliza como fonte de dados somente o conteúdo dos arquivos de logs de acesso de um servidor web.
Referências
Brusso, M. J., Navaux, P. O. A., and Geyer, C. F. R. (2000). Um modelo para a descoberta de regras de associação aplicado à mineração do uso da web. v.1 n.1. Disponível em: http://seer.ufrgs.br/cadernosdeinformatica/article/view/v1n1p29-35/8803. Acesso em: jan-2013.
Catledge, L. D. and Pitkow, J. E. (1995). Characterizing browsing strategies in the worldwide web. In Computer Networks and ISDN Systems, pages 1065–1073.
Chaofeng, L. (2004). Research and development of data preprocessing in web usage mining. Disponível em: http://www.seiofbluemountain.com/upload/product/201001/1264129077i6mdnlwh.pdf. Acesso em: jan-2013.
Chitraa, V. and Davamani, A. S. (2010). An efcient path completion technique for web In IEEE International Conference on Computational Intelligence and log mining. Computing Research.
Witten, I. H. and Frank, E. (2005). Data Mining Practical Machine Learning Tools and Techniques. Elsevier, 2nd edition.
Ypma, A. and Heskes, T. (2002). Automatic categorization of web pages and In WEBKDD 2002 user clustering with mixtures of hidden markov models. Mining Web Data for Discovering Usage Patterns and Proles. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.112.3626&rep=rep1&type=pdf. Acesso em: jan-2013.