Strategic Adjustments to Prioritized Experience Replay for Control Challenges: Study with DQN on CartPole
Resumo
Este artigo explora modificações na técnica de Prioritized Experience Replay (PER), proposta por Schaul et al. (2015), aplicada ao algoritmo Deep Q-Network (DQN) de Mnih et al. (2015). O desafio escolhido para a implementação foi o CartPole, com o objetivo de aprimorar a eficiência e maximizar a recompensa do agente. Foram desenvolvidas novas abordagens que introduzem diferentes estratégias de priorização das amostras. As versões propostas são comparadas com a técnica PER original, ajustada com os mesmos parâmetros para garantir uma análise justa e precisa. Os resultados experimentais mostraram que há versões que proporcionam um aumento de desempenho superior a 25%, levando a recompensas significativamente maiores.
Palavras-chave:
Repetição de Experiência Priorizada, Deep Q-N
Referências
Hessel, M., Modayil, J., Van Hasselt, H., Schaul, T., Ostrovski, G., Dabney, W., Horgan, D., Piot, B., Azar, M., and Silver, D. (2018). Rainbow: Combining improvements in deep reinforcement learning. In Proceedings of the AAAI conference on artificial intelligence, volume 32.
Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8:293–321.
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. (2015). Human-level control through deep reinforcement learning. nature, 518(7540):529–533.
Schaul, T., Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay. arXiv preprint arXiv:1511.05952.
Sutton, R. S. and Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
Lin, L.-J. (1992). Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine learning, 8:293–321.
Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., and Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. (2015). Human-level control through deep reinforcement learning. nature, 518(7540):529–533.
Schaul, T., Quan, J., Antonoglou, I., and Silver, D. (2015). Prioritized experience replay. arXiv preprint arXiv:1511.05952.
Sutton, R. S. and Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
Publicado
17/11/2024
Como Citar
MENEZES, Bruno F.; RAMOS, Kaio M.; BARRETO, Gabriel G. S.; BOTELHO, Nícolas G.; BRAGA, Arthur P. de S..
Strategic Adjustments to Prioritized Experience Replay for Control Challenges: Study with DQN on CartPole. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 21. , 2024, Belém/PA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 340-351.
ISSN 2763-9061.
DOI: https://doi.org/10.5753/eniac.2024.245100.