Utilizando Teoria da Informação para Identificar Conversas de Pedofilia em Redes Sociais de Mensagens Instantâneas

  • Juliana G. Postal UFAM/SIDIA
  • Eduardo F. Nakamura UFAM

Resumo


Redes sociais privativas de mensagens instantâneas, como Whatsapp, representam uma ameaça para crianças e adolescentes que podem se tornar alvos de pedófilos. Portanto, a identificação automática de conversas de pedofilia representa uma importante ferramenta para proteção de jovens usuários destas redes. Contudo, estas redes possuem como particularidades: (1) as mensagens são tipicamente armazenadas apenas localmente; e (2) dispositivos móveis de capacidade limitada de processamento são os principais veículos de utilização. Neste contexto, as soluções de estado-da-arte possuem um custo computacional proibitivo para execução em dispositivos móveis. Em contrapartida, a natureza da comunicação ponto-a-ponto destas redes torna, em muitos casos, inviável o processamento em nuvem sem correr o risco de expor as vítimas de pedofilia. Neste trabalho, apresentamos um método, baseado na entropia de Shannon e na divergência de Jensen-Shannon, capaz de identificar conversas de pedofilia com um desempenho próximo a 90%, considerando as medidas F1 e F0;5, e que chega a ser 72,8% mais rápido que o estado-da-arte.

Referências

Bogdanova, D., Rosso, P., e Solorio, T. (2012). On the impact of sentiment and emotion based features in detecting online sexual predators. In In Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and Sentiment Analysis, pages 110 – 118, Jeju, Korea. Association for Computational Linguistics.

Cheong, Y., Jensen, A. K., Gudnadottir, E. R., Bae, B., e Togelius, J. (2015). Detecting predatory behavior in game chats. Transactions on Computational Intelligence and AI in Games, 7(3):220 – 232.

Kontostathis, A., Edwards, L., e Leatherman, A. (2010). Text Mining and Cybercrime, pages 149 – 164. John Wiley & Sons, Ltd, West Sussex, United Kingdom.

Lanning, K. V., for Missing & Exploited Children, N. C., et al. (2010). Child molesters: A behavioral analysis for professionals investigating the sexual exploitation of children. National Center for Missing & Exploited Children with Office of Juvenile Justice and Delinquency Prevention, Virginia, USA.

Lin, J. (1991). Divergence measures based on the shannon entropy. IEEE Transactions on Information theory, 37(1):145–151.

Liu,W. e Chawla, S. (2011). Class Confidence Weighted kNN Algorithms for Imbalanced Data Sets, pages 345 – 356. Springer Berlin Heidelberg, Berlin, Heidelberg.

Livingstone, S., Haddon, L., Görzig, A., e Ólafsson, K. (2010). Risks and safety on the Internet: the perspective of European children. LSE: EU Kids Online, London, United Kingdom.

MacKay, D. J. C. (2003). Information Theory, Inference and Learning Algorithms. Cambridge University Press.

Manning, C. D., Raghavan, P., e Schutze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.

Manning, C. D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S. J., e McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. In Association for Computational Linguistics (ACL) System Demonstrations, pages 55–60.

Morris, C. e Hirst, G. (2012). Identifying sexual predators by svm classification with lexical and behavioral features. In Working notes of the 3rd Conference and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages 1 – 29, Rome, Italy. The CLEF Initiative.

Parapar, J., Losada, D., e Barreiro, A. (2012). A learning-based approach for the identification of sexual predators in chat logs. In Working notes of the 3rd Conference and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages 1 – 12, Rome, Italy. The CLEF Initiative.

Peersman, C., Vaassen, F., Van Asch, V., e Daelemans, W. (2012). Conversation level constraints on pedophile detection in chat rooms. In Working notes of the 3rd Conference and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages 1 – 13, Rome, Italy. The CLEF Initiative.

Pendar, N. (2007). Toward spotting the pedophile telling victim from predator in text chats. In In Proceedings of the International Conference on Semantic Computing (ICSC), volume 1, pages 235 – 241, California, USA. IEEE.

Reis, J., Miranda, M., Bastos, L., Prates, R., e Benevenuto, F. (2016). Uma análise do impacto do anonimato em comentários de notícias online. In Anais do 13o. Simpósio Brasileiro de Sistemas Colaborativos (SBSC), pages 1290–1304. SBC.

Rosso, O. A., Craig, H., e Moscato, P. (2009). Shakespeare and other english renaissance authors as characterized by information theory complexity quantifiers. Physica A: Statistical Mechanics and its Applications, 388(6):916 – 926.

Silva, C., Barbosa, G., Silva, I., Silva, T., e Mourão, F. (2016). Privacidade para crianças e adolescentes em redes sociais online sob a lente da usabilidade: Um estudo de caso no facebook. In Anais do 13o. Simpósio Brasileiro de Sistemas Colaborativos (SBSC), pages 1245–1259. SBC.

Villatoro-Tello, E., Juárez-González, A., Escalante, H. J., Montes-y Gómez, M., e Pineda, L. V. (2012). Two-step approach for effective detection of misbehaving users in chats. In Working notes of the 3rd Conference and Labs of the Evaluation Forum, Evaluation Labs and Workshop, volume 12, pages 1 – 12, Rome, Italy. The CLEF Initiative.
Publicado
02/07/2017
POSTAL, Juliana G.; NAKAMURA, Eduardo F.. Utilizando Teoria da Informação para Identificar Conversas de Pedofilia em Redes Sociais de Mensagens Instantâneas. In: SIMPÓSIO BRASILEIRO DE SISTEMAS COLABORATIVOS (SBSC), 14. , 2017, São Paulo. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 1328-1341. ISSN 2326-2842. DOI: https://doi.org/10.5753/sbsc.2017.9957.