【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

Welcome ·

更新时间:2024-09-21

· 546 次阅读

首先放视频链接：李宏毅老师深度强化学习课程——Q-Learning

Q-Learning简介

Q-Learning是一种value-based的方法，在这种方法中，不是直接学习policy，而是利用值函数评价现在行为的好坏，即AC算法中的critic。比如state value function

由状态值函数到动作值函数

state-action value function

loss的设计和之前一样，只不过targe network delay了一下，牛批。

explore 问题

epsilon greedy （ $\epsilon$ 的概率随机，随着训练进行而递减）

$a=\left\{\begin{array}{cl} \arg \max _{a} Q(s, a), & \text { with probability } 1-\varepsilon \ \text {random,} & \text {otherwise } \end{array}\right.$

Boltzmann exploration（指数后求概率）

 $P(a | s)=\frac{\exp \left(Q(s, a)\right)}{\sum_{a} \exp (Q(s, a))}$

Replay buffer

简单来讲就是把过程中的transition存到replay buffer中，然后每次取出一个batch，取出的transition其实是不同policy下的。这种方法和深度学习中常见技巧比较类似。这里有一个问题，mc的方法可以用replay buffer吗？

作者：greyduan

化学 q-learning 强化学习学习

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

Shell中重定向的深入讲解

Laraine 2020-04-28

836

Shell脚本实现非法IP登陆自动报警

Heidi 2020-04-15

802

Docker容器跨主机通信中直接路由方式详解

Adelaide 2020-03-28

644

关于MongoDB数据库学习路线指南

Kande 2023-05-13

295

SQL注入之sqlmap入门学习

Ula 2023-05-13

1477

Docker AIGC等大模型深度学习环境搭建步骤最新详细版

Jacinda 2023-05-13

1807

一文带你学习一下C++中的构造函数

Winona 2023-05-13

520

C++中set的用法学习

Fawn 2023-05-13

226

Three.js概述和基础知识学习

Echo 2023-05-13

1103

Vue自定义指令学习及应用详解

Maha 2023-05-13

1234

写给小白学习的地理信息的表示法GeoJSON

Kande 2023-05-15

702

从错误中学习改正Go语言五个坏习惯提高编程技巧

Viridis 2023-05-17

1281

Java NIO下ByteBuffer的常用方法学习

Maleah 2023-05-17

473

MySQL基础学习之字符集的应用

Nafisa 2023-05-17

1150

C++函数模板学习示例教程指南

Pandora 2023-07-07

go语言定义零值可用的类型学习教程

Tallulah 2023-07-17

216

Redis数据结构之intset整数集合使用学习

Janna 2023-07-20

1721

Redis数据结构之跳跃表使用学习

Ophelia 2023-07-20

644

Redis数据结构之listpack和quicklist使用学习

Natalia 2023-07-20

1968

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座

【深度强化学习 一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

致谢

【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）