Seleção de características de dados utilizando Redes Neurais Artificiais
Resumo
As Redes Neurais Artificiais (RNAs) tem se difundindo ao longo dos anos e sua utilização vem crescendo devido aos bons resultados encontrados na solução de diversos problemas do mundo real. Porém, a presença de variáveis de entrada sem importância ou redundantes que nada acrescentam ao processo de aprendizagem das RNAs tornam o seu treinamento mais difícil e demorado. Os métodos de seleção de características têm por objetivo determinar quais variáveis (características) da entrada são mais relevantes para a determinação da saída ou resposta da RNA, e assim auxiliar na redução do número de entradas. Neste trabalho foram implementados e avaliados quatro métodos de seleção de características baseados em RNAs: método de Garson; Perturb; PaD; e Análise de Sensibilidade. Todos os métodos foram comparados com os resultados obtidos pelo método estatístico clássico de Correlação Linear. Os dados de três problemas reconhecidos na área (Íris, Desempenho da CPU, Resistência do concreto) foram utilizados para o treinamento de RNAs que, após treinadas utilizando o algoritmo Error Backpropagation, os métodos de seleção de características foram executados obtendose a importância de cada entrada. Para os dados do problema Íris, todos métodos apresentaram resultados semelhantes. Para os problemas Desempenho da CPU e Resistência do Concreto, o método Perturb apresentou os piores resultados, o método de Garson obteve um resultado satisfatório, e os métodos PaD e Análise de Sensibilidade apresentaram melhores resultados se destacando em relação aos demais.
Referências
Chen Z. Data mining and uncertain reasoning: an integrated approach. John Wiley & Sons, New York, 2001.
Cooper, G. F. and Herskovits. E. A Bayesian method for the induction of probabilistic networks from data. Mach Learning, 9, 4 (1992), 309-47. DOI= 10.1007/BF00994110.
Fayyad, U. M., Piatestsky-Shapiro, G., and Smyth, P. From Data Mining to Knowledge Discovery: An Overview. AI Magazine, 17, 3 (1996), 37-54.
Freedman, D. A. Ecological inference and the ecological fallacy. Technical Report. University of California, 1999.
IBGE. Instituto Brasileiro de Geografia e Estatística. Pesquisa Nacional por Amostra de Domicílios. Retrieved December 09, 2016, from IBGE: http://www.sidra.ibge.gov.br.
IBGE. Instituto Brasileiro de Geografia e Estatística. Sistema de Informações de Nascidos Vivos – SINASC. Retrieved December 09, 2016, from IBGE: http://ces.ibge.gov.br/basede-dados/metadados/ministerio-da-saude/sistema-deinformacoes-de-nascidos-vivos-sinasc.html.
Silva Neto, M. A., Villwock, R., Scheer, S., Steiner, M.T.A., Dyminski , A. S. Técnicas de mineração visual de dados aplicadas aos dados de instrumentação da barragem de Itaipu. Gest. Prod., 17, 4 (Dec 2010), 721-734. DOI= http://dx.doi.org/10.1590/S0104-530X2010000400007.
Silva, A. S., Brito, S. R., Barroso, R. F. F., Cruz, A. G., Monteiro, M. A., Costa, J. C. W. A., Francês, C. R. L. Gravidez na adolescência e associação com indicadores de renda, educação e acesso às Tecnologias de Informação e Comunicação no Brasil e na Amazônia Legal Brasileira. Saúde e Desenvolvimento Humano, 4, 2 (2016), 21-33. DOI= http://dx.doi.org/10.18316/2317-8582.16.27.
UNICEF. United Nations Children's Fund .The State of the World´s Childrens 2014 in numbers. Technical Report. Retrieved January, 05, 2017, from UNICEF: https://www.unicef.org/sowc2014/numbers/documents/englis h/SOWC2014_In%20Numbers_28%20Jan.pdf