首先放视频链接:李宏毅老师深度强化学习课程——Q-Learning
Q-Learning简介Q-Learning是一种value-based的方法,在这种方法中,不是直接学习policy,而是利用值函数评价现在行为的好坏,即AC算法中的critic。比如state value function
由状态值函数到动作值函数state-action value function
loss的设计和之前一样,只不过targe network delay了一下,牛批。
explore 问题epsilon greedy (的概率随机,随着训练进行而递减)
Boltzmann exploration(指数后求概率)
Replay buffer简单来讲就是把过程中的transition存到replay buffer中,然后每次取出一个batch,取出的transition其实是不同policy下的。这种方法和深度学习中常见技巧比较类似。这里有一个问题,mc的方法可以用replay buffer吗?