Aceleração do Aprendizado por Reforço em Problemas com Múltiplos Objetivos

  • Helen C. de Mattos Senefonte UEL
  • Reinaldo A. C. Bianchi FEI
  • Carlos H. C. Ribeiro ITA


Apresentamos neste artigo uma nova variação de uma abordagem para a seleção de ações em problemas de Aprendizado por Reforço com Múltiplos Objetivos, visando à diminuição do tempo necessário para a realização do aprendizado. Para tanto, é proposta a utilização do método de seleção de ações do algoritmo Q-learning Acelerado por Heurísticas (HAQL), no qual uma função heurística H é usada para influenciar o agente na escolha de suas ações durante o aprendizado, em algoritmos tradicionais de RL multiobjetivos. A proposta foi avaliada utilizando um domínio tradicional em pesquisas com múltiplos objetivos: o problema Presa-Predador, e os resultados obtidos indicam que o uso de heurísticas é capaz de proporcionar a aceleração do aprendizado desejada.


