华人澳洲中文论坛

热图推荐

    在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面

    [复制链接]

    2023-1-22 18:07:17 33 0

    原标题:在《我的世界》里挖钻石把AI难哭了,DeepMind最新算法终于扳回颜面  
    鱼羊 Alex 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    又一个AI老大难问题,被DeepMind霸占了:  
    一只名叫 DreamerV3的AI,在啥也不知道的状况下被丢进《我的世界》 (MineCraft)里,摸爬滚打17天,还真就学会了如何从0开始挖钻石。   

    xcqcpp0spev.jpg

    xcqcpp0spev.jpg


    就是从撸树开始的那种   
    要知道,以前为了霸占这个问题,CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了个竞赛,叫MineRL。  
    后果搞了三四年,AI们也没能在 不参考人类教训的状况下,实现挖钻石工作。   
    此前表示最佳的VPT选手,为了达成这一成绩,可是狂看了 70000+小时《我的世界》游戏视频,而且用上了720个V100……   
    这不DeepMind的最新后果一出,钻研人员都开心坏了。  
    MineRL的发动人之一、前OpenAI钻研迷信家William Guss就第一时间跑来颁发贺电:  
    4年了,“钻石应战”终于被霸占了!
        4年了,“钻石应战”终于被霸占了!  

    rlugplvvxdy.jpg

    rlugplvvxdy.jpg


    展开全文    往年刚拿到了NeurIPS出色数据集和基准论文奖的MineDojo作者、英伟达AI迷信家范麟熙则表现:  
    AI玩转MineCraft面前,有个莫拉维克悖论:一些工作关于人类而言很难题(好比围棋),但对AI来讲很简略。但像MineCraft这样人类高玩有数的游戏,状况却相同。
      DreamerV3能在没有任何人工数据辅佐的状况下采集钻石,这让我感到十分兴奋。
        AI玩转MineCraft面前,有个莫拉维克悖论:一些工作关于人类而言很难题(好比围棋),但对AI来讲很简略。但像MineCraft这样人类高玩有数的游戏,状况却相同。   
    DreamerV3能在没有任何人工数据辅佐的状况下采集钻石,这让我感到十分兴奋。   
    所以,这个0根底挖钻石工作,究竟有啥难点?  
    首先,在《我的世界》里,初始世界是彻底随机生成的。  
    即便是人类玩家,想要疾速挖到钻石,也得有至关丰硕的教训。好比,知道怎么推算钻石的地位、掌握一些挖掘诀窍 (如鱼骨挖矿法)等。   
    排除掉教训的要素,关于AI来讲,这个挖钻石的进程也挺繁杂,最少得要 7个步骤。   
    第一步,玩家在白手进入《我的世界》中时,需求先撸树来获得木块:  

    1s3ms42ao12.jpg

    1s3ms42ao12.jpg


    第二步,得用木块用来分解任务台:  
    第三步,在任务台上分解木镐,用来挖圆石:  

    mvlc3ktzt3o.jpg

    mvlc3ktzt3o.jpg


    第四步,获取圆石之后,需求分解一个石镐,用来疾速挖铁矿:  

    2oznsuqoauo.jpg

    2oznsuqoauo.jpg


    第五步,为了将铁矿分解铁锭,还需求做一个熔炉来烧铁:  

    eqzhjvzkosu.jpg

    eqzhjvzkosu.jpg


    第六步,分解铁镐,用来挖钻石:  
    第七步,寻觅钻石,而后用铁镐挖出钻石:  

    533hib1roy0.jpg

    533hib1roy0.jpg


    p.s. 有玩家测试过,在AI知道钻石等各种资源坐标的状况下(开外挂),也需求2-3分钟能力搞定。  
    这也就象征着,AI必需在无限时间里,做出少量决策。  
    那末既然不克不及参考人类高手的教训,天然就需求强化学习 (Reinforcement Learning)出马。   
    详细而言,DeepMind的钻研人员提出了一种 基于世界模型的通用算法。   
    在总体架构上,DreamerV3由3个神经网络组成:世界模型、评委 (critic)和演员 (actor)。   

    uz3ip0t3m0q.jpg

    uz3ip0t3m0q.jpg


    世界模型要做的,是把环境输出编码为离散的表征,并经过预测来指点下一步要履行的操作。  
    而评委和演员则会按照笼统出来的表征进行学习。其中,评委网络会输入一个标量值来代表行为价值,从而帮忙演员网络选择最优的行为。  
    这外面的 一个中心点在于,DeepMind的钻研人员但愿DreamerV3 不单单能处置同类型的问题,还能够用固定超参数,掌握跨畛域工作。   
    因此,钻研人员需求零碎地解决世界模型、评委和演员等各个组件中信号大小不同,以及不乱均衡指标的问题。  
    钻研人员发现:  
    之前的世界模型,需求按照繁杂3D环境的视觉输出,对表征损失进行不同的缩放,在训练过程当中还得调剂不少超参数,但这外面其实有许多没须要的细节。  
    而假如把自在比特 (free bits)和KL均衡 (KL balancing)结合起来,就能在不调剂超参数的状况下让DreamerV3在不同畛域中学习。   
    KL均衡是上一代DreamerV2中提出的一项新技术。可以使预测向表征挪动的速度比表征向预测挪动的速度更快,带来更准确的预测。  
    自在比特防止了简略环境下的适度拟合。  

    tzrmc2p55qn.jpg

    tzrmc2p55qn.jpg


    DreamerV3的三大块都用上了固定超参数,详细如下:  

    bycbkyu41oq.jpg

    bycbkyu41oq.jpg


    试验后果   
    也就是说,DreamerV3如今成为了世界上第一个纯靠本人试探,就可以在《我的世界》里速挖钻石的AI。  
    而且DreamerV3的本领可不仅是玩MC。  
    在此外7项基准测试中,DreamerV3都取患了胜利,而且在BSuite、Crafter上达到了SOTA。  

    erdjohyoak5.jpg

    erdjohyoak5.jpg


    值得一提的是,在这些工作中,训练智能体所用到的GPU资源都仅为1块V100。钻研人员表现,这象征着有更多的试验室能跑得动这一模型。  
    此外,在需求时空推理的三维空间中,DreamerV3也能疾速进行学习。  
    在DeepMind为强化学习专门打造的3D平台DMLab上,DreamerV3在工作中使用的交互次数仅为IMPALA的1/130。  

    1zly44rpopg.jpg

    1zly44rpopg.jpg


    目前,DreamerV3的代码是coming soon的形态。  
    感兴致的小火伴能够蹲一波~  
    —   
    百度钻研院、阿里达摩院、量子位智库  
    年度十大科技讲演  
    总结2022,预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布, 点击下方图片便可跳转查看。   
    百度钻研院  
    阿里达摩院  
    量子位智库  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题36

    帖子45

    积分214

    图文推荐