强化学习（五）用时序差分法（TD）求解

Winona ·

更新时间:2024-09-21

· 698 次阅读

640?wx_fmt=gif

作者：刘建平

编辑：田旭

前言

在强化学习（四）用蒙特卡罗法（MC）求解中，我们讲到了使用蒙特卡罗法来求解强化学习问题的方法，虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法：时序差分(Temporal-Difference, TD)。

时序差分这一篇对应Sutton书的第六章部分和UCL强化学习课程的第四讲部分，第五讲部分。

章节目录

时序差分TD简介

时序差分TD的预测问题求解

n步时序差分

TD(λ)

时序差分TD的控制问题求解

时序差分小结

时序差分TD简介

时序差分法和蒙特卡罗法类似，都是不基于模型的强化学习问题求解方法。所以在上一篇定义的不基于模型的强化学习控制问题和预测问题的定义，在这里仍然适用。

预测问题，也就是求解最优的价值函数和策略。即给定强化学习的6个要素：状态集S，动作集A，即时奖励R，衰减因子 640?wx_fmt=png ，给定策略，求解该策略的状态价值函数。

控制问题，也就是求解最优的价值函数和策略。给定强化学习的5个要素：状态集S，动作集A，即时奖励R，衰减因子 640?wx_fmt=png ，探索率，求解最优的状态价值函数和最优策略。

回顾蒙特卡罗法中计算状态收获的方法是：

而对于时序差分法来说，我们没有完整的状态序列，只有部分的状态序列，那么如何可以近似求出某个状态的收获呢？回顾强化学习（二）马尔科夫决策过程(MDP)中的贝尔曼方程：

这启发我们可以用来近似代替收获，一般我们把称为TD目标值。成为TD误差，将用TD目标值近似代替收获的过程称为引导(bootstrapping)。这样我们只需要两个连续的状态与对应的奖励，就可以尝试求解强化学习问题了。

现在我们有了自己的近似收获

的表达式，那么就可以去求解时序差分的预测问题和控制问题了。

时序差分TD的预测问题求解

时序差分的预测问题求解和蒙特卡罗法类似，但是主要有两个不同点。一是收获的表达式不同，时序差分的表达式为：

640?wx_fmt=png

二是迭代的式子系数稍有不同，回顾蒙特卡罗法的迭代式子是：

640?wx_fmt=png

由于在时序差分我们没有完整的序列，也就没有对应的次数，一般就用一个[0,1]的系数 640?wx_fmt=png 代替。这样时序差分的价值函数迭代式子是：

640?wx_fmt=png

这里我们用一个简单的例子来看看蒙特卡罗法和时序差分法求解预测问题的不同。

假设我们的强化学习问题有A,B两个状态，模型未知，不涉及策略和行为。只涉及状态转化和即时奖励。一共有8个完整的状态序列如下：

　　① A,0,B,0 ②B,1 ③B,1 ④ B,1 ⑤ B,1 ⑥B,1 ⑦B,1 ⑧B,0

只有第一个状态序列是有状态转移的，其余7个只有一个状态。设置衰减因子

首先我们按蒙特卡罗法来求解预测问题。由于只有第一个序列中包含状态A，因此A的价值仅能通过第一个序列来计算，也就等同于计算该序列中状态A的收获：

对于B，则需要对其在8个序列中的收获值来平均，其结果是6/8。

再来看看时序差分法求解的过程。其收获是在计算状态序列中某状态价值时是应用其后续状态的预估价值来计算的，对于B来说，它总是终止状态，没有后续状态，因此它的价值直接用其在8个序列中的收获值来平均，其结果是6/8。

对于A，只在第一个序列出现，它的价值为：

640?wx_fmt=png

从上面的例子我们也可以看到蒙特卡罗法和时序差分法求解预测问题的区别。

一是时序差分法在知道结果之前就可以学习，也可以在没有结果时学习，还可以在持续进行的环境中学习，而蒙特卡罗法则要等到最后结果才能学习，时序差分法可以更快速灵活的更新状态的价值估计，这在某些情况下有着非常重要的实际意义。

二是时序差分法在更新状态价值时使用的是TD 目标值，即基于即时奖励和下一状态的预估价值来替代当前状态在状态序列结束时可能得到的收获，是当前状态价值的有偏估计，而蒙特卡罗法则使用实际的收获来更新状态价值，是某一策略下状态价值的无偏估计，这一点蒙特卡罗法占优。

三是虽然时序差分法得到的价值是有偏估计，但是其方差却比蒙特卡罗法得到的方差要低，且对初始值敏感，通常比蒙特卡罗法更加高效。

从上面的描述可以看出时序差分法的优势比较大，因此现在主流的强化学习求解方法都是基于时序差分的。后面的文章也会主要基于时序差分法来扩展讨论。

n步时序差分

在第二节的时序差分法中，我们使用了用来近似代替收获。即向前一步来近似我们的收获那么能不能向前两步呢？当然可以，这时我们的收获的近似表达式为：

从两步，到三步，再到n步，我们可以归纳出n步时序差分收获 640?wx_fmt=png

表达式为：

当n越来越大，趋于无穷，或者说趋于使用完整的状态序列时，n步时序差分就等价于蒙特卡罗法了。

对于n步时序差分来说，和普通的时序差分的区别就在于收获的计算方式的差异。那么既然有这个n步的说法，那么n到底是多少步好呢？如何衡量n的好坏呢？我们在下一节讨论。

TD(λ)

n步时序差分选择多少步数作为一个较优的计算参数是需要尝试的超参数调优问题。为了能在不增加计算复杂度的情况下综合考虑所有步数的预测，我们引入了一个新[0,1]的参数λ，定义λ是从n从1到∞所有步的收获乘以权重的和。每一步的权重是，这样λ-收获的计算公式表示为：

640?wx_fmt=png

进而我们可以得到TD(λ)的价值函数的迭代公式：

640?wx_fmt=png

每一步收获的权重定义为，的原因是什么呢？其图像如下图所示，可以看到随着n的增大，其第n步收获的权重呈几何级数的衰减。当在T时刻到达终止状态时，未分配的权重全部给予终止状态的实际收获值。这样可以使一个完整的状态序列中所有的n步收获的权重加起来为1，离当前状态越远的收获其权重越小。

640?wx_fmt=jpeg

从前向来看TD(λ)，一个状态的价值， 640?wx_fmt=png 得到，而又间接由所有后续状态价值计算得到，因此可以认为更新一个状态的价值需要知道所有后续状态的价值。也就是说，必须要经历完整的状态序列获得包括终止状态的每一个状态的即时奖励才能更新当前状态的价值。这和蒙特卡罗法的要求一样，因此TD(λ)有着和蒙特卡罗法一样的劣势。当时,就是第二节讲到的普通的时序差分法，当时，就是蒙特卡罗法。

从后向来看TD(λ)，它可以分析我们状态对后续状态的影响。比如老鼠在依次连续接受了3 次响铃和1 次亮灯信号后遭到了电击，那么在分析遭电击的原因时，到底是响铃的因素较重要还是亮灯的因素更重要呢？如果把老鼠遭到电击的原因认为是之前接受了较多次数的响铃，则称这种归因为频率启发(frequency heuristic) 式；而把电击归因于最近少数几次状态的影响，则称为就近启发(recency heuristic) 式。

如果给每一个状态引入一个数值：效用(eligibility, E) 来表示该状态对后续状态的影响，就可以同时利用到上述两个启发。而所有状态的效用值总称为效用迹(eligibility traces,ES)。定义为：

640?wx_fmt=png

此时我们TD(λ)的价值函数更新式子可以表示为：

640?wx_fmt=png

也许有人会问，这前向的式子和反向的式子看起来不同啊，是不是不同的逻辑呢？其实两者是等价的。现在我们从前向推导一下反向的更新式子。

640?wx_fmt=png

可以看出前向TD误差和反向的TD误差实际上一致的。

时序差分的控制问题求解

现在我们回到普通的时序差分，来看看它控制问题的求解方法。回想上一篇蒙特卡罗法在线控制的方法，我们使用的是ϵ-贪婪法来做价值迭代。对于时序差分，我们也可以用ϵ-贪婪法，和蒙特卡罗法在线控制的区别主要只是在于收获的计算方式不同。时序差分的在线控制(on-policy)算法最常见的是SARSA算法，我们在下一篇单独讲解。

而除了在线控制，我们还可以做离线控制(off-policy)，离线控制和在线控制的区别主要在于在线控制一般只有一个策略(最常见的是ϵ-贪婪法)。而离线控制一般有两个策略，其中一个策略(最常见的是ϵ-贪婪法)用于选择新的动作，另一个策略(最常见的是贪婪法)用于更新价值函数。时序差分的离线控制算法最常见的是Q-Learning算法，我们在下下篇单独讲解。

时序差分小结

时序差分和蒙特卡罗法比它更加灵活，学习能力更强，因此是目前主流的强化学习求解问题的方法，现在绝大部分强化学习乃至深度强化学习的求解都是以时序差分的思想为基础的。因此后面我们会重点讨论。

下一篇我们会讨论时序差分的在线控制算法SARSA。

END

往期回顾

【1】强化学习（一）模型基础

【2】强化学习（二）马尔科夫决策过程(MDP)

【2】强化学习（三）用动态规划（DP）求解

【4】强化学习（四）用蒙特卡罗法（MC）求解

机器学习算法工程师

一个用心的公众号
长按，识别，加关注
进群，学习，得帮助
你的关注，我们的热度，
我们一定给你学习最大的帮助

你点的每个赞，我都认真当成了喜欢

作者：l7H9JA4

强化学习学习化学 td

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

TypeScript 声明文件

Laila 2020-06-19

624

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

Shell中重定向的深入讲解

Laraine 2020-04-28

836

Docker容器跨主机通信中直接路由方式详解

Adelaide 2020-03-28

644

关于MongoDB数据库学习路线指南

Kande 2023-05-13

295

SQL注入之sqlmap入门学习

Ula 2023-05-13

1477

Docker AIGC等大模型深度学习环境搭建步骤最新详细版

Jacinda 2023-05-13

1807

一文带你学习一下C++中的构造函数

Winona 2023-05-13

520

C++中set的用法学习

Fawn 2023-05-13

226

Three.js概述和基础知识学习

Echo 2023-05-13

1103

Vue自定义指令学习及应用详解

Maha 2023-05-13

1234

写给小白学习的地理信息的表示法GeoJSON

Kande 2023-05-15

702

从错误中学习改正Go语言五个坏习惯提高编程技巧

Viridis 2023-05-17

1281

Java NIO下ByteBuffer的常用方法学习

Maleah 2023-05-17

473

MySQL基础学习之字符集的应用

Nafisa 2023-05-17

1150

C++函数模板学习示例教程指南

Pandora 2023-07-07

25

go语言定义零值可用的类型学习教程

Tallulah 2023-07-17

216

Redis数据结构之intset整数集合使用学习

Janna 2023-07-20

1721

Redis数据结构之跳跃表使用学习

Ophelia 2023-07-20

644

Redis数据结构之listpack和quicklist使用学习

Natalia 2023-07-20

1968

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座