Inferência de idade utilizando o LIWC: identificando potenciais predadores sexuais

  • Rafael Guimarães Rodrigues CEFET/RJ
  • Wladimir Wanderley Pereira CEFET/RJ
  • Eduardo Bezerra CEFET/RJ
  • Gustavo Paiva Guedes CEFET/RJ

Resumo


Predadores sociais utilizam a internet para explorar crianças ou adolescentes com propósitos abusivos ou sexuais. Cada vez mais esses predadores utilizam as redes sociais para ter acesso as suas vítimas, muitas vezes fornecendo perfis falsos para se passarem por adolescentes. Nesse cenário, o presente trabalho tem o objetivo de analisar os textos em português do Brasil para inferir a idade dos usuários. Para esse propósito, foi utilizada uma ferramenta denominada LIWC em sua versão do português do Brasil. Como estudo de caso, foi utilizada uma rede social brasileira para realizar os experimentos. O referido estudo concentrou-se na análise de textos de adolescentes e homens entre 25 e 45 anos, que representam a grande maioria dos predadores sexuais. Os resultados alcançados foram relevantes e abrem lacunas para trabalhos futuros.

Referências

Barbieri, F. (2008). Patterns of age-based linguistic variation in american english. Journal of Sociolinguistics, 12(1):58–88.

Bogdanova, D., Rosso, P., and Solorio, T. (2012). On the impact of sentiment and emotion based features in detecting online sexual predators. In Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and Sentiment Analysis, pages 110–118. Association for Computational Linguistics.

Campos, G. E., Costa, H., and Monlevade-MG-Brasil, J. Caracterização dos perfis comerciais na rede social instagram.

Clarke, R. (2011). Antisocial Behavior: Causes, Correlations and Treatments. Psychology of emotions, motivations, and actions series. Nova Science Publishers.

Dowdell, E. B., Burgess, A. W., and Flores, J. R. (2011). Original research: online social networking patterns among adolescents, young adults, and sexual offenders. AJN The American Journal of Nursing, 111(7):28–36.

Felipe, J. (2006). Afinal, quem é mesmo pedófilo. Cadernos Pagu, 26:201–223.

Filho, R. M., Carvalho, A. I., and Pappa, G. L. (2014). Inferência de sexo e idade de usuários no twitter.

Filho, Pedro P. Balage;Pardo, T. A. S. R. M. A. (2013). An evaluation of the brazilian portuguese liwc dictionary for sentiment analysis.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The weka data mining software: An update. SIGKDD Explor. Newsl., 11(1):10–18.

Jackson, L. A. (2008). Adolescents and the internet. The changing portrayal of American youth in popular media, pages 377–410.

Jin, L., Chen, Y., Wang, T., Hui, P., and Vasilakos, A. V. (2013). Understanding user behavior in online social networks: A survey. IEEE Communications Magazine, 51(9):144–150.

Kipane, A. (2014). Woman as a sexual offender – reality or myths? SHS Web of Conferences, 10:00016.

Marquardt, J., Farnadi, G., Vasudevan, G., Moens, M.-F., Davalos, S., Teredesai, A., and De Cock, M. (2014). Age and gender identification in social media. In Proceedings of CLEF 2014 Evaluation Labs, pages 1129–1136.

Nagarajan, M. and Hearst, M. A. (2009). An examination of language use in online dating profiles. In ICWSM.

Nguyen, T., Phung, D., Adams, B., and Venkatesh, S. (2011). Prediction of age, sentiment, and connectivity from social media text. In International Conference on Web Information Systems Engineering, pages 227–240. Springer.

Parapar, J., Losada, D., and Barreiro, A. (2012). A learning-based approach for the identification of sexual predators in chat logs. In Conference and Labs of the Evaluation Forum: PAN 2012 Lab Uncovering Plagiarism, Authorship, and Social Software Misuse.

Peersman, C., Daelemans, W., and Van Vaerenbergh, L. (2011). Predicting age and gender in online social networks. In Proceedings of the 3rd international workshop on Search and mining user-generated contents, pages 37–44. ACM.

Pennebaker, J. W., Francis, M. E., and Booth, R. J. (2001). Linguistic Inquiry and Word Count. Lawerence Erlbaum Associates, Mahwah, NJ.

Plasencia, M. M. (2000). Internet sexual predators: Protecting children in the global community. J. Gender Race & Just., 4:15.

Potha, N., Maragoudakis, M., and Lyras, D. (2016). A biology-inspired, data mining framework for extracting patterns in sexual cyberbullying data. Knowledge-Based Systems, 96:134–155.

Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., Shah, A., Kosinski, M., Stillwell, D., Seligman, M. E., et al. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PloS one, 8(9):e73791.
Publicado
02/07/2017
RODRIGUES, Rafael Guimarães; PEREIRA, Wladimir Wanderley; BEZERRA, Eduardo; GUEDES, Gustavo Paiva. Inferência de idade utilizando o LIWC: identificando potenciais predadores sexuais. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 6. , 2017, São Paulo. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 567-572. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2017.3265.