Um Modelo Adaptativo para a Filtragem de Spam
Resumo
O aumento do número de spam tem sido um grande problema para usuários e provedores de Internet. Pesquisas recentes apontam para o uso de algoritmos de aprendizagem de máquina para a construção de filtros, mas a maioria dos trabalhos não reconhece o caráter dinâmico do spam, julgando a filtragem como uma atividade de classificação de texto. Este artigo apresenta um modelo adaptativo para a filtragem de spam que leva em consideração a dinamicidade do spam. O modelo é aplicado utilizando-se árvores de Huffman adaptativas, support vector machines e envelhecimento de mensagens.
Referências
Carreras, X., Màrques, L. (2001). Boosting Trees for Anti-Spam Email Filtering. In: Proc. of the 4 th Intl. Conf. on Recent Advances in Natural Language Processing.
Cormack, G. & Lynam, T. (2005). TREC 2005 Spam Track Overview. [link]. Acesso em fev/2007.
Cristianini, N. & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press.
Drucker, H., Wu, D. & Vapnik, V. (1999). Support Vector Machines for Spam Categorization. In: IEEE Transactions on Neural Networks, p.1048-1054, v.10, n.5.
Faller, N. (1973). An Adaptive System for Data Compression. In: Record of the 7 th Asilomar Conference on Circuits, Systems and Computers, p.593-597.
Gallager, R. (1978). Variations on a Theme by Huffman. In: IEEE Transactions on Information Theory, p.668-674, v.24, n.6.
Graham, P. (2002). A Plan for Spam. [link]. Acesso em fev/2007.
Haykin, S. (2001). Redes Neurais: Princípios e Prática. Porto Alegre: Bookman. 2ª edição (Trad. Paulo Martins Engel).
Knuth, D. (1985). Dynamic Huffman Coding. In: Journal of Algorithms, p.163-180, v.6, n.2.
Platt, J. (1998). Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines. Technical Report 98-14, Microsoft Research
Sahami, M., Dumais, S., Heckerman, D. & Horvitz, E. (1998). A Bayesian Approach to Filtering Junk E-mail. In: Learning for Text Categorization: Papers from the 1998 Workshop, AAAI Technical Report WS-98-05.
Sakkis, G., Androutsopoulos, I., Paliouras, G., Karkaletsis, V., Spyropoulos, C. & Stamatopoulos, P. (2003). A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists. Information Retrieval, p. 49-73, v. 6.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag.
Zhou, Y., Mulekar, M.S. & Nerellapalli, P. (2005). Adaptive Spam Filtering Using Dynamic Feature Space. In: Proc. of the 17 th IEEE Intl. Conf. on Tools with Artificial Intelligence.
