SEMPLICe: Um Modelo Sequencial de Proficiência em Comunidades Online para Aprendizado de Idioma ∗

  • Rafael Sales Medina UFMG
  • Ana Paula Couto da Silva UFMG
  • Fabricio Murai UFMG

Resumo


O Reddit é uma rede social online em que usuários interessados em um mesmo tópico interagem uns com os outros em subreddits. Subreddits para aprendizado de idioma vem atraindo usuários de diferentes nı́veis de pro- ficiência a cada ano, buscando melhorar o aprendizado. Em particular, no subreddit German, os usuários são aconselhados a informar seu nı́vel de pro- ficiência ao escrever um post. Contudo, apenas 20% dos posts possuem tais tags. Abordamos aqui o problema de classificar a proficiência dos usuários a partir de suas publicações. Conduzimos uma série de experimentos que demonstram que classificadores que tratam as publicações como observações independentes tem baixo desempenho. À vista disso, propomos um novo modelo, SEMPLICe, que considera as caracterı́sticas textuais e também o histórico de um usuário no subreddit para classificar sua proficiência ao longo do tempo. Baseado na suposição de que a proficiência é não decresce desde que um usuário permaneça ativo, SEMPLICe alcança um F 1 ponderado até 29,6% maior que os métodos anteriores. SEMPLICe utiliza programação dinâmica para obter complexidade linear no tamanho do histórico de cada usuário.

Palavras-chave: Modelo seqüencial, comunidades online, classificação automática de proficiência, Reddit

Referências

Altman, N. S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46(3):175–185.

Arnold, N. and Paulus, T. (2010). Using a social networking site for experiential learning: Appropriating, lurking, modeling and community building. The Internet and higher education, 13(4):188–196.

Bergstra, J. and Bengio, Y. (2012). Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13(Feb):281–305.

Breiman, L. (2001). Random forests. Machine learning, 45(1):5–32.

Crossley, S. A., Salsbury, T., and McNamara, D. S. (2012). Predicting the proficiency level of language learners using lexical indices. Language Testing, 29(2):243–263.

Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statistics & Data Analysis, 38(4):367–378.

Levy, M. (1997). Computer-assisted language learning: Context and conceptualization. Oxford University Press.

Lin, C.-H., Warschauer, M., and Blake, R. (2016). Language learning through social networks: Perceptions and reality.

Spolaôr, N. and Tsoumakas, G. (2013). Evaluating feature selection methods for multi- label text classification. BioASQ workhsop.

Warschauer, M. and Healey, D. (1998). Computers and language learning: An overview. Language teaching, 31(2):57–71.

Yang, Y., Yu, W., and Lim, H. (2016). Predicting second language proficiency level using linguistic cognitive task and machine learning techniques. Wireless Personal Communications, 86(1):271–285.

Yu, H.-F., Huang, F.-L., and Lin, C.-J. (2011). Dual coordinate descent methods for logistic regression and maximum entropy models. Machine Learning, 85(1-2):41–75.

Zhao, Y. (1996). Language learning on the world wide web: Toward a framework of network based call. Calico Journal, pages 37–51.

Zourou, K. (2012). De l’attrait des médias sociaux pour l’apprentissage des langues– regard sur l’état de l’art. Alsic. Apprentissage des Langues et Systèmes d’Information et de Communication, 15(1).
Publicado
09/07/2019
Como Citar

Selecione um Formato
MEDINA, Rafael Sales; DA SILVA, Ana Paula Couto; MURAI, Fabricio . SEMPLICe: Um Modelo Sequencial de Proficiência em Comunidades Online para Aprendizado de Idioma ∗. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 8. , 2019, Belém. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 59-60. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2019.6548.