Inferindo o sexo de usuários de redes sociais utilizando o LIWC em português do Brasil
Resumo
Esse trabalho apresenta resultados preliminares de uma avaliação experimental sobre a possibilidade de se inferir o sexo dos usuários de uma rede social brasileira. Isso é feito a partir de um processo de extração de características associadas a esses usuários. Para alcançar esse objetivo, utilizamos uma versão em português do recurso linguístico denominado LIWC. Os resultados experimentais iniciais permitem concluir que a tarefa de classificação sobre os conjuntos de dados produzidos com o LIWC é capaz de apresentar resultados satisfatórios. Isso é feito sem influência direta das palavras que possuem traços de gênero.
Referências
Filho, P. P. B., Pardo, T. A. S., and Alu´ısio, R. M. (2013). An evaluation of the brazilian portuguese liwc dictionary for sentiment analysis.
Filho, R. M., Carvalho, A. I. R., and Pappa, G. L. (2014). Inferência de sexo e idade de usuários no twitter. In CSBC 2014 - BraSNAM ().
Golbeck, J., Robles, C., Edmondson, M., and Turner, K. (2011). Predicting personality from twitter. In SocialCom/PASSAT, pages 149–156. IEEE.
Goswami, S., Sarkar, S., and Rustagi, M. (2009). Stylometric analysis of bloggers’ age and gender. In Proceedings of the Third International Conference on Weblogs and Social Media, ICWSM 2009, San Jose, California, USA, May 17-20, 2009.
Koch, R. (1999). The 80/20 Principle: The Secret of Achieving More with Less. A Currency book. Doubleday.
Kokkos, A. and Tzouramanis, T. (2014). A robust gender inference model for online social networks and its application to linkedin and twitter. First Monday, 19(9).
Nguyen, D., Gravel, R., Trieschnigg, D., and Meder, T. (2013). “how old do you think i am?”: A study of language and age in twitter. In Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media, ICWSM 2013.
Peersman, C., Daelemans, W., and Van Vaerenbergh, L. (2011). Predicting age and gender in online social networks. In Proceedings of the 3rd International Workshop on Search and Mining User-generated Contents, SMUC ’11, pages 37–44, New York, NY, USA. ACM.
Pennebaker, J. (2013). The Secret Life of Pronouns: What Our Words Say About Us. Bloomsbury USA.
Pennebaker, J. W., Francis, M. E., and Booth, R. J. (2001). Linguistic Inquiry and Word Count. Lawerence Erlbaum Associates, Mahwah, NJ.
Schler, J., Koppel, M., Argamon, S., and Pennebaker, J. (2006). Effects of Age and Gender on Blogging. In Proc. of AAAI Spring Symposium on Computational Approaches for Analyzing Weblogs.
Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., Shah, A., Kosinski, M., Stillwell, D., Seligman, M. E. P., and Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PLoS ONE, 8(9):e73791.