SEMPLICe: Um Modelo Sequencial de Proficiência em Comunidades Online para Aprendizado de Idioma ∗
Resumo
O Reddit é uma rede social online em que usuários interessados em um mesmo tópico interagem uns com os outros em subreddits. Subreddits para aprendizado de idioma vem atraindo usuários de diferentes nı́veis de pro- ficiência a cada ano, buscando melhorar o aprendizado. Em particular, no subreddit German, os usuários são aconselhados a informar seu nı́vel de pro- ficiência ao escrever um post. Contudo, apenas 20% dos posts possuem tais tags. Abordamos aqui o problema de classificar a proficiência dos usuários a partir de suas publicações. Conduzimos uma série de experimentos que demonstram que classificadores que tratam as publicações como observações independentes tem baixo desempenho. À vista disso, propomos um novo modelo, SEMPLICe, que considera as caracterı́sticas textuais e também o histórico de um usuário no subreddit para classificar sua proficiência ao longo do tempo. Baseado na suposição de que a proficiência é não decresce desde que um usuário permaneça ativo, SEMPLICe alcança um F 1 ponderado até 29,6% maior que os métodos anteriores. SEMPLICe utiliza programação dinâmica para obter complexidade linear no tamanho do histórico de cada usuário.
Referências
Arnold, N. and Paulus, T. (2010). Using a social networking site for experiential learning: Appropriating, lurking, modeling and community building. The Internet and higher education, 13(4):188–196.
Bergstra, J. and Bengio, Y. (2012). Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13(Feb):281–305.
Breiman, L. (2001). Random forests. Machine learning, 45(1):5–32.
Crossley, S. A., Salsbury, T., and McNamara, D. S. (2012). Predicting the proficiency level of language learners using lexical indices. Language Testing, 29(2):243–263.
Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statistics & Data Analysis, 38(4):367–378.
Levy, M. (1997). Computer-assisted language learning: Context and conceptualization. Oxford University Press.
Lin, C.-H., Warschauer, M., and Blake, R. (2016). Language learning through social networks: Perceptions and reality.
Spolaôr, N. and Tsoumakas, G. (2013). Evaluating feature selection methods for multi- label text classification. BioASQ workhsop.
Warschauer, M. and Healey, D. (1998). Computers and language learning: An overview. Language teaching, 31(2):57–71.
Yang, Y., Yu, W., and Lim, H. (2016). Predicting second language proficiency level using linguistic cognitive task and machine learning techniques. Wireless Personal Communications, 86(1):271–285.
Yu, H.-F., Huang, F.-L., and Lin, C.-J. (2011). Dual coordinate descent methods for logistic regression and maximum entropy models. Machine Learning, 85(1-2):41–75.
Zhao, Y. (1996). Language learning on the world wide web: Toward a framework of network based call. Calico Journal, pages 37–51.
Zourou, K. (2012). De l’attrait des médias sociaux pour l’apprentissage des langues– regard sur l’état de l’art. Alsic. Apprentissage des Langues et Systèmes d’Information et de Communication, 15(1).