【深度强化学习 一】Q-Learning初识(1)(李宏毅老师学习视频笔记)

Welcome ·
更新时间:2024-09-21
· 546 次阅读

首先放视频链接:李宏毅老师深度强化学习课程——Q-Learning

Q-Learning简介

Q-Learning是一种value-based的方法,在这种方法中,不是直接学习policy,而是利用值函数评价现在行为的好坏,即AC算法中的critic。比如state value function

由状态值函数到动作值函数

state-action value function 

loss的设计和之前一样,只不过targe network delay了一下,牛批。

explore 问题

epsilon greedy (\epsilon的概率随机,随着训练进行而递减)

                                       $$a=\left\{\begin{array}{cl} \arg \max _{a} Q(s, a), & \text { with probability } 1-\varepsilon \ \text {random,} & \text {otherwise } \end{array}\right.$$

​​​​​​​​​​​​​​Boltzmann exploration(指数后求概率)

​​​​​​​                                        $$P(a | s)=\frac{\exp \left(Q(s, a)\right)}{\sum_{a} \exp (Q(s, a))}$$

Replay buffer

简单来讲就是把过程中的transition存到replay buffer中,然后每次取出一个batch,取出的transition其实是不同policy下的。这种方法和深度学习中常见技巧比较类似。这里有一个问题,mc的方法可以用replay buffer吗?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


作者:greyduan



化学 q-learning 强化学习 学习

需要 登录 后方可回复, 如果你还没有账号请 注册新账号