Um Modelo Adaptativo para a Filtragem de Spam

  • Ígor Assis Braga UnB
  • Marcelo Ladeira UnB

Resumo


O aumento do número de spam tem sido um grande problema para usuários e provedores de Internet. Pesquisas recentes apontam para o uso de algoritmos de aprendizagem de máquina para a construção de filtros, mas a maioria dos trabalhos não reconhece o caráter dinâmico do spam, julgando a filtragem como uma atividade de classificação de texto. Este artigo apresenta um modelo adaptativo para a filtragem de spam que leva em consideração a dinamicidade do spam. O modelo é aplicado utilizando-se árvores de Huffman adaptativas, support vector machines e envelhecimento de mensagens.

Referências

Androutsopoulos, I., Koutsias, J., Chandrinos, K.V., Paliouras, G. & Spyropoulos, C.D. (2000). An Evaluation of Naive Bayesian Anti-Spam Filtering. In: Proc. of the Workshop on Machine Learning in the New Information Age, ECML 2000, p.9-17.

Carreras, X., Màrques, L. (2001). Boosting Trees for Anti-Spam Email Filtering. In: Proc. of the 4 th Intl. Conf. on Recent Advances in Natural Language Processing.

Cormack, G. & Lynam, T. (2005). TREC 2005 Spam Track Overview. [link]. Acesso em fev/2007.

Cristianini, N. & Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press.

Drucker, H., Wu, D. & Vapnik, V. (1999). Support Vector Machines for Spam Categorization. In: IEEE Transactions on Neural Networks, p.1048-1054, v.10, n.5.

Faller, N. (1973). An Adaptive System for Data Compression. In: Record of the 7 th Asilomar Conference on Circuits, Systems and Computers, p.593-597.

Gallager, R. (1978). Variations on a Theme by Huffman. In: IEEE Transactions on Information Theory, p.668-674, v.24, n.6.

Graham, P. (2002). A Plan for Spam. [link]. Acesso em fev/2007.

Haykin, S. (2001). Redes Neurais: Princípios e Prática. Porto Alegre: Bookman. 2ª edição (Trad. Paulo Martins Engel).

Knuth, D. (1985). Dynamic Huffman Coding. In: Journal of Algorithms, p.163-180, v.6, n.2.

Platt, J. (1998). Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines. Technical Report 98-14, Microsoft Research

Sahami, M., Dumais, S., Heckerman, D. & Horvitz, E. (1998). A Bayesian Approach to Filtering Junk E-mail. In: Learning for Text Categorization: Papers from the 1998 Workshop, AAAI Technical Report WS-98-05.

Sakkis, G., Androutsopoulos, I., Paliouras, G., Karkaletsis, V., Spyropoulos, C. & Stamatopoulos, P. (2003). A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists. Information Retrieval, p. 49-73, v. 6.

Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag.

Zhou, Y., Mulekar, M.S. & Nerellapalli, P. (2005). Adaptive Spam Filtering Using Dynamic Feature Space. In: Proc. of the 17 th IEEE Intl. Conf. on Tools with Artificial Intelligence.
Publicado
30/06/2007
BRAGA, Ígor Assis; LADEIRA, Marcelo. Um Modelo Adaptativo para a Filtragem de Spam. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 6. , 2007, Rio de Janeiro/RJ. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2007 . p. 1381-1390. ISSN 2763-9061.