Strategic Adjustments to Prioritized Experience Replay for Control Challenges: Study with DQN on CartPole

  • Bruno F. Menezes UFC
  • Kaio M. Ramos UFC
  • Gabriel G. S. Barreto UFC
  • Nícolas G. Botelho UFC
  • Arthur P. de S. Braga UFC

Resumo


Este artigo explora modificações na técnica de Prioritized Experience Replay (PER), proposta por Schaul et al. (2015), aplicada ao algoritmo Deep Q-Network (DQN) de Mnih et al. (2015). O desafio escolhido para a implementação foi o CartPole, com o objetivo de aprimorar a eficiência e maximizar a recompensa do agente. Foram desenvolvidas novas abordagens que introduzem diferentes estratégias de priorização das amostras. As versões propostas são comparadas com a técnica PER original, ajustada com os mesmos parâmetros para garantir uma análise justa e precisa. Os resultados experimentais mostraram que há versões que proporcionam um aumento de desempenho superior a 25%, levando a recompensas significativamente maiores.
Palavras-chave: Repetição de Experiência Priorizada, Deep Q-N

Referências

Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., Horgan, D., Piot, B., Azar, M., and Silver, D. (2018). Rainbow: Combining improvements in deep reinforcement learning. In Proceedings of the AAAI conference on artificial intelligence, volume 32.

Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8:293–321.

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. (2015). Human-level control through deep reinforcement learning. nature, 518(7540):529–533.

Schaul, T., Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay. arXiv preprint arXiv:1511.05952.

Sutton, R. S. and Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
Publicado
17/11/2024
MENEZES, Bruno F.; RAMOS, Kaio M.; BARRETO, Gabriel G. S.; BOTELHO, Nícolas G.; BRAGA, Arthur P. de S.. Strategic Adjustments to Prioritized Experience Replay for Control Challenges: Study with DQN on CartPole. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 21. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 340-351. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2024.245100.