Strategic Adjustments to Prioritized Experience Replay for Control Challenges: Study with DQN on CartPole

Bruno F. Menezes; Kaio M. Ramos; Gabriel G. S. Barreto; Nícolas G. Botelho; Arthur P. de S. Braga

doi:10.5753/eniac.2024.245100

Bruno F. Menezes UFC
Kaio M. Ramos UFC
Gabriel G. S. Barreto UFC
Nícolas G. Botelho UFC
Arthur P. de S. Braga UFC

DOI: https://doi.org/10.5753/eniac.2024.245100

Resumo

Este artigo explora modificações na técnica de Prioritized Experience Replay (PER), proposta por Schaul et al. (2015), aplicada ao algoritmo Deep Q-Network (DQN) de Mnih et al. (2015). O desafio escolhido para a implementação foi o CartPole, com o objetivo de aprimorar a eficiência e maximizar a recompensa do agente. Foram desenvolvidas novas abordagens que introduzem diferentes estratégias de priorização das amostras. As versões propostas são comparadas com a técnica PER original, ajustada com os mesmos parâmetros para garantir uma análise justa e precisa. Os resultados experimentais mostraram que há versões que proporcionam um aumento de desempenho superior a 25%, levando a recompensas significativamente maiores.

Palavras-chave: Repetição de Experiência Priorizada, Deep Q-N

Referências

Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., Horgan, D., Piot, B., Azar, M., and Silver, D. (2018). Rainbow: Combining improvements in deep reinforcement learning. In Proceedings of the AAAI conference on artificial intelligence, volume 32.

Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8:293–321.

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. (2015). Human-level control through deep reinforcement learning. nature, 518(7540):529–533.

Schaul, T., Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay. arXiv preprint arXiv:1511.05952.

Sutton, R. S. and Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.