Detecção de Spams Utilizando Conteúdo Web Associado a Mensagens

Marco Túlio C. Ribeiro; Wagner Meira Jr.; Dorgival Guedes; Adriano Veloso

Marco Túlio C. Ribeiro UFMG
Wagner Meira Jr. UFMG
Dorgival Guedes UFMG
Adriano Veloso UFMG

Resumo

Neste trabalho propomos uma estratégia de detecção de spams que explora o conteúdo das páginas Web apontadas por mensagens. Descrevemos uma metodologia para a coleta dessas páginas, caracterizamos a relação entre as páginas e as mensagens de spam e, em seguida, utilizamos um algoritmo de aprendizado de máquina para extrair as informações relevantes para a detecção de spam. Mostramos que a utilização de informações das páginas mencionadas melhora significativamente a classificação de spams e hams, gerando um baixo índice de falsos positivos. Nosso estudo revela que as páginas apontadas pelos spams ainda são um campo de batalha não explorado pelos filtros, onde os spammers não se preocupam em esconder a sua identidade.

Referências

Anderson, D. S., Fleizach, C., Savage, S., and Voelker, G. M. (2007). Spamscatter: Characterizing Internet Scam Hosting Infrastructure. pages 135–148.

Cook, D., Hartnett, J., Manderson, K., and Scanlan, J. (2006). Catching spam before it arrives: domain specific dynamic blacklists. In ACSW Frontiers ’06: Proceedings of the 2006 Australasian workshops on Grid computing and e-research, pages 193–202, Darlinghurst, Australia, Australia. Australian Computer Society, Inc.

Fawcett, T. (2003). ”in vivo”spam filtering: a challenge problem for kdd. SIGKDD Explor. Newsl., 5:140–148.

Guenter, B. (2010). Spam archive. [link].

Guerra, P. H. C., Guedes, D., Jr., W. M., Hoepers, C., and Steding-Jessen, K. (2008). Caracterização de estratégias de disseminação de spams. In 26o Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos, Rio de Janeiro, RJ.

Guerra, P. H. C., Guedes, D., Wagner Meira, J., Hoepers, C., Chaves, M. H. P. C., and Steding-Jessen, K. (2010). Exploring the spam arms race to characterize spam evolution. In Proceedings of the 7th Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS), Redmond, WA.

MAAWG (2009). Email Metrics Program: Report 5 – Third and Fourth Quarter 2008. [link].

Milletary, J. (2005). Technical trends in phishing attacks. Technical report, CERT Coordination Center, Carnegie Mellon University. [link].

Pu, C. and Webb, S. (2006). Observed trends in spam construction techniques: a case study of spam evolution. Proceedings of the 3rd Conference on Email and Anti-Spam (CEAS).

Ramachandran, A., Dagon, D., and Feamster, N. (2006). Can dns-based blacklists keep up with bots? In In Proceedings of the 3rd Conference on Email and AntiSpam (CEAS) (Mountain View).

Sinha, S., Bailey, M., and Jahanian, F. (2008). Shades of grey: On the effectiveness of reputation-based blacklists. In Malicious and Unwanted Software, 2008. MALWARE 2008. 3rd International Conference on, pages 57 –64.

Sipior, J. C., Ward, B. T., and Bonner, P. G. (2004). Should spam be on the menu? Commun. ACM, 47(6):59–63.

SpamAssassin (2008). [link].

Upasana and Chakravarty, S. (2010). A survey on text classification techniques for e-mail filtering. In Machine Learning and Computing (ICMLC), 2010 Second International Conference on, pages 32 –36.

Veloso, A., Jr., W. M., and Zaki, M. J. (2006). Lazy associative classification. In ICDM, pages 645–654. IEEE Computer Society.

Veloso, A., Jr., W. M., and Zaki, M. J. (2008). Calibrated lazy associative classification. In de Amo, S., editor, SBBD, pages 135–149. SBC.

Webb, S. (2006). Introducing the webb spam corpus: Using email spam to identify web spam automatically. In In Proceedings of the 3rd Conference on Email and AntiSpam (CEAS) (Mountain View).