一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频+开源代码

Nova ·

更新时间:2024-11-15

· 533 次阅读

郭一璞发自北四环
量子位报道 | 公众号 QbitAI

把超级马里奥玩成下面这样，算什么水平？

能流畅的行走在妖魔鬼怪之间

640?wx_fmt=gif

能掐准食人花出现的时机

640?wx_fmt=gif

能灵巧的躲过烧火棍

640?wx_fmt=gif

能克服各种变态的地形

640?wx_fmt=gif

从1-1到7-1，只要一条命，就能全部通过，而且操作几乎没有迟疑，如行云流水一般。

不信的可以看完整视频：

别人玩得这么溜，你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐？

不过，这个玩游戏的不是人，是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法

这个算法已经开源，是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

640?wx_fmt=png

异步一步Q-Learning：每个线程与自己的环境副本交互，在每一步中计算，用共享的渐变目标网络Q-Learning损失的梯度，就像DQN训练模型一样。

640?wx_fmt=png

异步多步Q-Learning：在正视图中通过明确的计算多步返回来运行，因为基于动量的方法反向传播来训练神经网络时，用正视图更容易一些。

640?wx_fmt=png

异步优势演员评论家算法：这是超级马里奥AI的核心。智能体中的两个部分，分别扮演演员和评论家，负责创造和监督。

和前面的异步多步Q-Learning一样，演员和评论家在正视图中运行，用相同的多步返回组合来更新策略和价值函数。

演员就像一个小孩子一样，会探索世界，做各种事情。

评论家则类似于前面小演员的爸爸妈妈，负责监督演员的举动，赞扬他做的好的地方，批评他做的不好的地方，告诉自己孩子：你和其他演员（别人家的孩子）差在哪儿了。

因此，演员希望一直能获得爸妈的赞扬，获得积极的反馈，就会根据爸妈的赞扬和批评不断修正自己的行为。

而对于异步优势演员评论家算法而言，则是为小演员提供了一所“学校”。如果小演员只在家里学习，可能学到的东西更片面，而且学习速度也比较慢。在异步优势演员评论家算法这所学校里，有“老师”和“同学”能让演员更快的学习，学到正确的知识。

游戏达人Viet Nguyen

最后，公布这个算法实现的是GitHub用户Viet Nguyen。

640?wx_fmt=jpeg

他是一名AI和机器人方向的硕� �，毕业于慕尼黑工业大学，主要研究自然语言处理和计算机视觉。

现在，他是德国手游公司Popcore的一名数据科学家。除了超级马里奥，他还研究过用Deep-Q-Learning训练AI玩Flappy Bird。

640?wx_fmt=gif

传送门

最后，这个项目已经开源了，发布者公布了代码和模型，针对超级马里奥的每一关都单独训练了模型，在RTX 2080上大概一关费了6~10个小时。

开源代码
https://github.com/vietnguyen91/Super-mario-bros-A3C-pytorch

论文原文
Asynchronous Methods for Deep Reinforcement Learning
Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu
https://arxiv.org/abs/1602.01783

— 完 —

小程序|全类别AI学习教程

640?wx_fmt=jpeg

AI社群|与优秀的人交流

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

作者：量子位

开源开源代码马里奥源代码

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

ECharts 教程

Autumn 2021-01-19

552

shell脚本实现拷贝大文件显示百分比的代码分享

Ines 2020-09-25

500

Linux下Apache HTTP Server 2.4.26安装教程

Serena 2020-02-02

802

vue实现购物车小案例

Anna 2020-09-03

854

centos6.4安装CloudStack 4.2(开源云计算平台)详解

Idonia 2022-02-03

1125

FreeBSD10安装内核源代码方法讲解

Cytheria 2022-02-12

开源操作系统Unix ：SunOS 4.1.1上手体验

Iris 2022-02-12

1074

开源鸿蒙 OpenHarmony Github 镜像库正式上线

Irisa 2022-02-23

753

开源操作系统是什么意思开源操作系统简介

Olinda 2022-02-24

1779

开发者福音：Google将Android默认字体Roboto完全开源了

Edana 2022-03-04

651

VSCode无法打开源文件及无法打开链接库文件的解决方法

Meta 2022-06-10

1117

自带IDEA插件的阿里开源诊断神器Arthas线上项目BUG调试

Serwa 2022-06-20

185

Spring Boot整合阿里开源中间件Canal实现数据增量同步

Nissa 2022-06-23

1021

Go语言开源库实现Onvif协议客户端设备搜索

Wanda 2022-07-15

819

国产开源数据库openGauss容器部署过程详解

Karli 2022-08-12

1167

编译 dotnet和aspnetcore 源代码详情

Lani 2022-10-02

一款开源的Python一键抢票神器详细配置

Genet 2022-10-23

284

C++图书管理系统程序源代码

Fredrica 2022-10-24

728

Rainbond云原生部署开源社区Discourse的配置过程

Oria 2022-10-26

1522

开源框架 Matrix-Dendrite 搭建聊天服务器的详细过程

Kersen 2022-10-26

1622

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座