Avaliação de uma Abordagem Hierárquica para Predição de Faixa Etária de Autores de Textos Escritos em Português
Resumo
A caracterização autoral, área de estudo que usa modelos computacionais para inferir características demográficas de autores de textos, torna-se cada dia mais importante para diversas aplicações. Apesar do crescente interesse por pesquisas nessa área, a quantidade de técnicas e recursos computacionais propostos na literatura para a língua portuguesa ainda é muito pequena quando comparada àquela disponível para outros idiomas. Além disso, a maioria dos trabalhos aborda a predição das características como um problema de classificação plana. Desse modo, este trabalho contribui propondo e avaliando uma abordagem de classificação hierárquica envolvendo mais de uma característica demográfica para a predição da faixa etária do autor de um texto.
Referências
Basile, A., Dwyer, G., Medvedeva, M., Rawee, J., Haagsma, H., and Nissim, M. (2017). N-gram: New groningen author-profiling model. Conference and Labs of the Evaluation Forum, abs/1707.03764.
Delmondes Neto, J. P. (2021). Caracterização autoral interdomínio a partir de textos. Master’s thesis, Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, São Paulo.
Dias, R. F. S. (2019). Caracterização autoral a partir de textos utilizando redes neurais artificiais. Master’s thesis, Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, São Paulo, SP, Brasil.
DOMO (2023). Data never sleeps 11.0. [link]. Acessado em: 11 março de 2025.
dos Santos, H., Woloszyn, V., and Vieira, R. (2018). Blogset-br: A brazilian portuguese blog corpus. In LREC, pages 661–664, Miyazaki, Japan. European Language Resources Association (ELRA).
Flores, A. M., Pavan, M. C., and Paraboni, I. (2022). User profiling and satisfaction inference in public information access services. Journal of Intelligent Information Systems, 58:67–89.
Goldenberg, D., Kofman, K., Albert, J., Mizrachi, S., Horowitz, A., and Teinemaa, I. (2021). Personalization in practice: Methods and applications. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining, page 1123–1126, New York, NY, USA. Association for Computing Machinery.
Guimarães, R. G., Rosa, R., Gaetano, D. D., Rodríguez, D., and Bressan, G. (2017). Age groups classification in social network using deep learning. IEEE Access, 5:10805–10816.
Hsieh, F., Dias, R., and Paraboni, I. (2018). Author profiling from facebook corpora. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), pages 2566–2570, Miyazaki, Japan. European Language Resources Association (ELRA).
López-Monroy, A. (2014). Using intra-profile information for author profiling. In Notebook for PAN at CLEF 2014. CEUR-WS.org.
López-Monroy, A., Montes, M., Escalante, H. J., Villaseñor-Pineda, L., and Villatoro-Tello, E. (2013). Inaoe’s participation at pan’13: Author profiling task: Notebook for pan at clef 2013. CEUR Workshop Proceedings, 1179.
Pizarro, J. (2019). Using n-grams to detect bots on twitter. In Conference and Labs of the Evaluation Forum, Lugano, Switzerland. CEUR-WS.org.
Ramos, R., Neto, G., Silva, B. B. C., Monteiro, D. S., Paraboni, I., and Dias, R. (2018). Building a corpus for personality-dependent natural language understanding and generation. LREC 2018, pages 1138–1145.
Santos, W. and Paraboni, I. (2019). Moral stance recognition and polarity classification from twitter and elicited text. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019), pages 1069–1075, Varna, Bulgaria. INCOMA Ltd.
Silla, C. and Freitas, A. (2011). A survey of hierarchical classification across different application domains. Data Mining and Knowledge Discovery, 22:31–72.
Silva, D. H. (2020). Classificação de gêneros e faixas etárias em redes sociais online por meio de técnicas de aprendizagem multidimensional. Master’s thesis, Universidade Federal de Lavras, Lavras, MG, Brasil.
Statista (2025). Internet usage worldwide - statistics facts. [link]. Acessado em: 11 março de 2025.
Takahashi, T., Tahara, T., Nagatani, K., Miura, Y., Taniguchi, T., and Ohkuma, T. (2018). Text and image synergy with feature cross technique for gender identification: Notebook for PAN at CLEF 2018. In Working Notes of CLEF 2018 - Conference and Labs of the Evaluation Forum, Avignon, France, September 10-14, 2018. CEUR-WS.org.
Vollenbroek, M. B. O., Carlotto, T., Kreutz, T., Medvedeva, M., Pool, C., Bjerva, J., Haagsma, H., and Nissim, M. (2016). Gronup: Groningen user profiling. In Conference and Labs of the Evaluation Forum. [link].
