Aceleração do Aprendizado por Reforço em Problemas com Múltiplos Objetivos

  • Helen C. de Mattos Senefonte UEL
  • Reinaldo A. C. Bianchi FEI
  • Carlos H. C. Ribeiro ITA

Resumo


Apresentamos neste artigo uma nova variação de uma abordagem para a seleção de ações em problemas de Aprendizado por Reforço com Múltiplos Objetivos, visando à diminuição do tempo necessário para a realização do aprendizado. Para tanto, é proposta a utilização do método de seleção de ações do algoritmo Q-learning Acelerado por Heurísticas (HAQL), no qual uma função heurística H é usada para influenciar o agente na escolha de suas ações durante o aprendizado, em algoritmos tradicionais de RL multiobjetivos. A proposta foi avaliada utilizando um domínio tradicional em pesquisas com múltiplos objetivos: o problema Presa-Predador, e os resultados obtidos indicam que o uso de heurísticas é capaz de proporcionar a aceleração do aprendizado desejada.

Referências

Barrett, L. e Narayanan, S. (2008). Learning all optimal policies with multiple criteria. In Proceedings of the 25th International Conference on Machine learning, ICML ’08, pages 41–47, New York, NY, USA. ACM.

Bianchi, R. A. C., Ribeiro, C. H. C. e Costa, A. H. R. (2008). Accelerating autonomous learning by using heuristic selection of actions. Journal of Heuristics, 14(2):135–168.

Humphrys, M. (1997). Action selection methods using reinforcement learning. PhD thesis, University of Cambridge, Trinity Hall, Cambridge, UK.

Mitchell, T. (1997). Machine Learning. McGraw Hill, New York. Russell, S. e Norvig, P. (1995). Artificial Intelligence: A Modern Approach. Prentice Hall, Upper Saddle River, NJ.

Singh, S. e Cohn, D. (1998). How to dynamically merge markov decision processes. In Proceedings of the 1997 conference on Advances in neural information processing systems 10, NIPS ’97, pages 1057–1063, Cambridge, MA, USA. MIT Press.

Sousa, C. A. O. (2006). Aprendizagem por Reforço de Sistemas com Múltiplos Objectivos: o Problema da Selecção de Acções. Tese de Doutorado, Universidade Técnica de Lisboa, Instituto Superior Técnico, Lisboa.

Spiegel, M. R. (1998). Statistics. McGraw-Hill. Sprague, N. e Ballard, D. (2003). Multiple-goal reinforcement learning with modular sarsa(o). In Proceedings of the 18th international joint conference on Artificial intelligence, pages 1445–1447, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.

Sutton, R. e Barto, A. (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA.

Vamplew, P., Yearwood, J., Dazeley, R. e Berry, A. (2008). On the limitations of scalarisation for multi-objective reinforcement learning of pareto fronts. In Proceedings of the 21st Australasian Joint Conference on Artificial Intelligence: Advances in Artificial Intelligence, AI ’08, pages 372–378, Berlin, Heidelberg. Springer-Verlag.

Watkins, C. e Dayan, P. (1992). Q-learning. Machine Learning, 8:279–292.
Publicado
19/07/2011
SENEFONTE, Helen C. de Mattos; BIANCHI, Reinaldo A. C.; RIBEIRO, Carlos H. C.. Aceleração do Aprendizado por Reforço em Problemas com Múltiplos Objetivos. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 8. , 2011, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2011 . p. 619-629. ISSN 2763-9061.