Computação em Nuvem e Aprendizado de Máquina para Análise de Grandes Volumes de Dados Educacionais

  • Francisco Neto Universidade Federal Rural de Pernambuco
  • Romero Silva Universidade Federal Rural de Pernambuco
  • Roberta Gouveia Universidade Federal Rural de Pernambuco
  • Maria Batista Universidade Federal Rural de Pernambuco
  • Igor Oliveira Universidade Federal Rural de Pernambuco

Resumo


Este artigo descreve a aplicação de aprendizado de máquina supervisionado e não supervisionado em grandes volumes de dados abertos governamentais do INEP, por meio dos algoritmos K-Nearest Neighbors, Logistic Regression, Decision Tree, Random Forest e K-means. A metodologia fundamenta-se nos processos CRISP-DM e KDD, sendo necessária a utilização da plataforma em nuvem DataBricks, além das tecnologias de clusters Hadoop e Apache Spark. Tais tecnologias proporcionaram alto poder de processamento para execução dos experimentos, o que viabilizou a avaliação de desempenho dos modelos e a descoberta de conhecimento da educação básica brasileira.

Palavras-chave: Aplicações de Inteligência Artificial, Aprendizado de Máquina, Aquisição de Conhecimento, Mineração de Dados, Ciência de Dados.

Referências

Bengfort, Benjamin; Kim, Jenny. (2016) “Data Analytics with Hadoop: An Introduction for Data Scientists”. O'Reilly Media.

Brandão, J. O. S.; Silva, A. J.; Gouveia, R. M. M.; Soares, R. G. F. (2017) “Aprendizagem de Máquina para Predição de Desempenho de Estudantes de Graduação na UFPE”. In: Brazilian Conference on Intelligent Systems (BRACIS) – XIV Encontro Nacional de Inteligência Artificial e Computacional (ENIAC).

Cruz Júnior, G.; Nascimento, R.; Alves, G.; Gouveia, R. M. M. (2017) “Identificando Correlações e Outliers entre Bases de Dados Educacionais”. In: Workshops do Congresso Brasileiro de Informática na Educação, p. 694.

Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. (1996) “From data mining to knowledge discovery in databases”. AI magazine, v. 17, n. 3, p. 37.

Frawley, William J.; Piatetsky-Shapiro, Gregory; Matheus, Christopher J. (1992) “Knowledge discovery in databases: An overview”. AI magazine, v. 13, n. 3, p. 57.

Gomes, T.; Gouveia, R. M. M.; Batista, M. (2017) “Dados Educacionais Abertos: Associações em dados dos inscritos do Exame Nacional do Ensino Médio”. In: Workshop de Informática na Escola do Congresso Brasileiro de Informática na Educação, p. 895.

Gottardo, E.; Kaestner, C.; Noronha, R. V. (2012) “Avaliação de desempenho de estudantes em cursos de educação a distância utilizando mineração de dados”. In: Anais do Workshop de Desafios da Computação Aplicada à Educação. p. 30-39.

Miner, Donald; Shook, Adam. (2017) “MapReduce design patterns: building effective algorithms and analytics for Hadoop and other systems”. 2nd ed. O'Reilly Media.

Silva, P. M.; Lima, M. N. C. A.; Soares, W. L.; Silva, I. R. R.; Fagundes, R. A. de A.; Souza, F. F. (2019) “Ensemble Regression Models Applied to Dropout in Higher Education”. In: 2019 8th Brazilian Conference on Intelligent Systems (BRACIS), Salvador, Brazil, IEEE.

Simon, Augusto; Cazella, Sílvio. (2017) “Mineração de Dados Educacionais nos Resultados do ENEM de 2015”. In: Workshops do Congresso Brasileiro de Informática na Educação, p. 754.

Tan, Pang-Ning; Steinbach, Michael; Karpatne, Anuj; Kumar, Vipin. (2018) “Introduction to Data Mining”. 2nd ed. Pearson.

Tanaka, Fabio; Silva, Gabriel; Peres, Sarajane; Fantinato, Marcelo. (2017) “Predição de desempenho de alunos no ensino a distância via mineração de processos”. In: Brazilian Conference on Intelligent Systems (BRACIS) - XIV Encontro Nacional de Inteligência Artificial e Computacional – ENIAC.

Witten, Ian H; Frank, Eibe; Hall, Mark A. (2016) “Data mining: practical machine learning tools and techniques”. 4rd ed. Morgan Kaufmann - Elsevier.

Wirth, R.; Hipp, J. (2000) “CRISP-DM: Towards a standard process model for data mining”. In Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, p. 29-39.

Bengfort, Benjamin; Kim, Jenny. (2016) “Data Analytics with Hadoop: An Introduction for Data Scientists”. O'Reilly Media.

Brandão, J. O. S.; Silva, A. J.; Gouveia, R. M. M.; Soares, R. G. F. (2017) “Aprendizagem de Máquina para Predição de Desempenho de Estudantes de Graduação na UFPE”. In: Brazilian Conference on Intelligent Systems (BRACIS) – XIV Encontro Nacional de Inteligência Artificial e Computacional (ENIAC).

Cruz Júnior, G.; Nascimento, R.; Alves, G.; Gouveia, R. M. M. (2017) “Identificando Correlações e Outliers entre Bases de Dados Educacionais”. In: Workshops do Congresso Brasileiro de Informática na Educação, p. 694.

Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. (1996) “From data mining to knowledge discovery in databases”. AI magazine, v. 17, n. 3, p. 37.

Frawley, William J.; Piatetsky-Shapiro, Gregory; Matheus, Christopher J. (1992) “Knowledge discovery in databases: An overview”. AI magazine, v. 13, n. 3, p. 57.

Gomes, T.; Gouveia, R. M. M.; Batista, M. (2017) “Dados Educacionais Abertos: Associações em dados dos inscritos do Exame Nacional do Ensino Médio”. In: Workshop de Informática na Escola do Congresso Brasileiro de Informática na Educação, p. 895.

Gottardo, E.; Kaestner, C.; Noronha, R. V. (2012) “Avaliação de desempenho de estudantes em cursos de educação a distância utilizando mineração de dados”. In: Anais do Workshop de Desafios da Computação Aplicada à Educação. p. 30-39.

Miner, Donald; Shook, Adam. (2017) “MapReduce design patterns: building effective algorithms and analytics for Hadoop and other systems”. 2nd ed. O'Reilly Media.

Silva, P. M.; Lima, M. N. C. A.; Soares, W. L.; Silva, I. R. R.; Fagundes, R. A. de A.; Souza, F. F. (2019) “Ensemble Regression Models Applied to Dropout in Higher Education”. In: 2019 8th Brazilian Conference on Intelligent Systems (BRACIS), Salvador, Brazil, IEEE.

Simon, Augusto; Cazella, Sílvio. (2017) “Mineração de Dados Educacionais nos Resultados do ENEM de 2015”. In: Workshops do Congresso Brasileiro de Informática na Educação, p. 754.

Tan, Pang-Ning; Steinbach, Michael; Karpatne, Anuj; Kumar, Vipin. (2018) “Introduction to Data Mining”. 2nd ed. Pearson.

Tanaka, Fabio; Silva, Gabriel; Peres, Sarajane; Fantinato, Marcelo. (2017) “Predição de desempenho de alunos no ensino a distância via mineração de processos”. In: Brazilian Conference on Intelligent Systems (BRACIS) - XIV Encontro Nacional de Inteligência Artificial e Computacional – ENIAC.

Witten, Ian H; Frank, Eibe; Hall, Mark A. (2016) “Data mining: practical machine learning tools and techniques”. 4rd ed. Morgan Kaufmann - Elsevier.

Wirth, R.; Hipp, J. (2000) “CRISP-DM: Towards a standard process model for data mining”. In Proceedings of the 4th International Conference on the Practical Applications of Knowledge Discovery and Data Mining, p. 29-39.
Publicado
20/10/2020
NETO, Francisco; SILVA, Romero; GOUVEIA, Roberta; BATISTA, Maria; OLIVEIRA, Igor. Computação em Nuvem e Aprendizado de Máquina para Análise de Grandes Volumes de Dados Educacionais. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 17. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 58-69. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2020.12117.