在《我的世界》里挖钻石把AI难哭了，DeepMind最新算法终于扳回颜面

李诚

原标题：在《我的世界》里挖钻石把AI难哭了，DeepMind最新算法终于扳回颜面
鱼羊 Alex 发自凹非寺
量子位 | 大众号 QbitAI
又一个AI老大难问题，被DeepMind霸占了：
一只名叫 DreamerV3的AI，在啥也不知道的状况下被丢进《我的世界》（MineCraft）里，摸爬滚打17天，还真就学会了如何从0开始挖钻石。

xcqcpp0spev.jpg

△就是从撸树开始的那种
要知道，以前为了霸占这个问题，CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了个竞赛，叫MineRL。
后果搞了三四年，AI们也没能在 不参考人类教训的状况下，实现挖钻石工作。
此前表示最佳的VPT选手，为了达成这一成绩，可是狂看了 70000+小时《我的世界》游戏视频，而且用上了720个V100……
这不DeepMind的最新后果一出，钻研人员都开心坏了。
MineRL的发动人之一、前OpenAI钻研迷信家William Guss就第一时间跑来颁发贺电：
4年了，“钻石应战”终于被霸占了！
4年了，“钻石应战”终于被霸占了！

rlugplvvxdy.jpg

展开全文往年刚拿到了NeurIPS出色数据集和基准论文奖的MineDojo作者、英伟达AI迷信家范麟熙则表现：
AI玩转MineCraft面前，有个莫拉维克悖论：一些工作关于人类而言很难题（好比围棋），但对AI来讲很简略。但像MineCraft这样人类高玩有数的游戏，状况却相同。
  DreamerV3能在没有任何人工数据辅佐的状况下采集钻石，这让我感到十分兴奋。
AI玩转MineCraft面前，有个莫拉维克悖论：一些工作关于人类而言很难题（好比围棋），但对AI来讲很简略。但像MineCraft这样人类高玩有数的游戏，状况却相同。
DreamerV3能在没有任何人工数据辅佐的状况下采集钻石，这让我感到十分兴奋。
所以，这个0根底挖钻石工作，究竟有啥难点？
首先，在《我的世界》里，初始世界是彻底随机生成的。
即便是人类玩家，想要疾速挖到钻石，也得有至关丰硕的教训。好比，知道怎么推算钻石的地位、掌握一些挖掘诀窍（如鱼骨挖矿法）等。
排除掉教训的要素，关于AI来讲，这个挖钻石的进程也挺繁杂，最少得要 7个步骤。
第一步，玩家在白手进入《我的世界》中时，需求先撸树来获得木块：

1s3ms42ao12.jpg

第二步，得用木块用来分解任务台：
第三步，在任务台上分解木镐，用来挖圆石：

mvlc3ktzt3o.jpg

第四步，获取圆石之后，需求分解一个石镐，用来疾速挖铁矿：

2oznsuqoauo.jpg

第五步，为了将铁矿分解铁锭，还需求做一个熔炉来烧铁：

eqzhjvzkosu.jpg

第六步，分解铁镐，用来挖钻石：
第七步，寻觅钻石，而后用铁镐挖出钻石：

533hib1roy0.jpg

p.s. 有玩家测试过，在AI知道钻石等各种资源坐标的状况下（开外挂），也需求2-3分钟能力搞定。
这也就象征着，AI必需在无限时间里，做出少量决策。
那末既然不克不及参考人类高手的教训，天然就需求强化学习（Reinforcement Learning）出马。
详细而言，DeepMind的钻研人员提出了一种 基于世界模型的通用算法。
在总体架构上，DreamerV3由3个神经网络组成：世界模型、评委（critic）和演员（actor）。

uz3ip0t3m0q.jpg

世界模型要做的，是把环境输出编码为离散的表征，并经过预测来指点下一步要履行的操作。
而评委和演员则会按照笼统出来的表征进行学习。其中，评委网络会输入一个标量值来代表行为价值，从而帮忙演员网络选择最优的行为。
这外面的 一个中心点在于，DeepMind的钻研人员但愿DreamerV3 不单单能处置同类型的问题，还能够用固定超参数，掌握跨畛域工作。
因此，钻研人员需求零碎地解决世界模型、评委和演员等各个组件中信号大小不同，以及不乱均衡指标的问题。
钻研人员发现：
之前的世界模型，需求按照繁杂3D环境的视觉输出，对表征损失进行不同的缩放，在训练过程当中还得调剂不少超参数，但这外面其实有许多没须要的细节。
而假如把自在比特（free bits）和KL均衡（KL balancing）结合起来，就能在不调剂超参数的状况下让DreamerV3在不同畛域中学习。
KL均衡是上一代DreamerV2中提出的一项新技术。可以使预测向表征挪动的速度比表征向预测挪动的速度更快，带来更准确的预测。
自在比特防止了简略环境下的适度拟合。

tzrmc2p55qn.jpg

DreamerV3的三大块都用上了固定超参数，详细如下：

bycbkyu41oq.jpg

试验后果
也就是说，DreamerV3如今成为了世界上第一个纯靠本人试探，就可以在《我的世界》里速挖钻石的AI。
而且DreamerV3的本领可不仅是玩MC。
在此外7项基准测试中，DreamerV3都取患了胜利，而且在BSuite、Crafter上达到了SOTA。

erdjohyoak5.jpg

值得一提的是，在这些工作中，训练智能体所用到的GPU资源都仅为1块V100。钻研人员表现，这象征着有更多的试验室能跑得动这一模型。
此外，在需求时空推理的三维空间中，DreamerV3也能疾速进行学习。
在DeepMind为强化学习专门打造的3D平台DMLab上，DreamerV3在工作中使用的交互次数仅为IMPALA的1/130。

1zly44rpopg.jpg

目前，DreamerV3的代码是coming soon的形态。
感兴致的小火伴能够蹲一波~
— 完—
百度钻研院、阿里达摩院、量子位智库
年度十大科技讲演
总结2022，预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布， 点击下方图片便可跳转查看。
百度钻研院
阿里达摩院
量子位智库
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

在《我的世界》里挖钻石把AI难哭了，DeepMind最新算法终于扳回颜面

发表回复

浏览过的版块

李诚
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

在《我的世界》里挖钻石把AI难哭了，DeepMind最新算法终于扳回颜面

发表回复

浏览过的版块

李诚 关注TA

图文推荐

李诚
关注TA