华人澳洲中文论坛

热图推荐

    朱松纯团队最新钻研:机器人可与人类“开诚布公”!还说下一步要造“AI大白”

    [复制链接]

    2022-7-15 07:45:24 31 0

    原标题:朱松纯团队最新钻研:机器人可与人类“开诚布公”!还说下一步要造“AI大白”  
    羿阁 万博 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    机器人能否像《超能陆战队》中的“大白”同样,了解人类情感和价值观,一致指标齐心合力解决问题?  


    当初,这个问题有了谜底:  
    北大人工智能钻研院 朱松纯团队最新钻研,提出一个可解释人工智能(XAI)零碎,证实了机器人与人类真的能做到“开诚布公”,在任务中能像人类火伴同样一致OKR。   
    也就是朱松纯团提出的 实时双向人机价值对齐。   
    目前,朱松纯团队的这项钻研效果,曾经在顶级学术期刊 Science ,及其子刊 Science Robotics 上颁发,并且都是 头条地位。   




    人类与机器人,价值如何对齐?   
    为了验证人类和机器人的价值能否对齐,朱松纯团队设计了一个需求人类和机器人独特合作实现工作的小游戏,由人类负责指挥官,带领3个机器人火伴进行。  
    详细工作,就是在一个未知的20×20网格地图中,寻觅一条从基地 (位于地图的右下角) 到目的地 (位于地图的左上角) 的平安门路。   
    需求留意的是,这张地图上的不同网格中,安放有不同安装,好比爆炸物,或者物质等等,只要当机器人凑近时能力显示。  


    除了寻觅平安门路,在游戏开始以前,人类指挥官还会接到4个额定工作指标,指挥官需求4选1,工作包罗:  
    尽快抵达目的地;  考察地图上的可疑安装;  探究更大的区域;  采集资源。    这4个工作指标,代表的是人类指挥官的 价值取向,而机器人需求人类指挥官不停进行 工作反馈,进而了解指挥官的价值取向,自主行为。   
    详细进程,就是人类和机器人对于价值指标一轮一轮的反馈和解释,终究趋势统一:  


    全部游戏分为3组,试验后果发现,机器人双方面承受人类指令,也就是单纯的作为聆听者时,在游戏进度达到25%时,经过对最少60%的指标首要性进行正确排序,疾速与用户的价值进行对齐。  
    而作为表白者时,机器人向人类进行反馈,对遇到的情况提供 残缺解释时,在游戏进度50%的时分,完成了人类指挥官和机器人价值的一致。   
    机器人对遇到的情况仅仅是扼要解释的话,需求在游戏进度达到75%的时分两者价值能力实现一致。  


    下面的试验后果,阐明了人类与机器人合作过程当中,双向价值对齐的进程:  
    首先,机器人经过承受人类的反馈,机器人能够逐步更新本人的价值函数与人类的价值放弃统一。  
    其次,在与机器人在不停的交互中,人类也逐步造成对机器人才能和用意的感知,虽然两者的价值在游戏上半场没有完成一致,但从下半场的状况来看,人类对机器人价值评价才能的感知依然能够进步。  
    最初,当机器人的价值选择变得不乱,用户对机器人的评价也不乱上去,从机器人对人类价值的评价到人类价值的实在值,以及从人类对机器人价值的评价到机器人以后价值的收敛配对,造成了基于人类实在价值取向的双向价值对齐。  


    后果摆在下面,而证实人类与机器人之间的价值双向对齐,需求一个实践,也是所有钻研效果面前的原理:  
    可解释人工智能*(XAI)*,一种基于动态机器-静态人类的交流形式,解释人工智能每项决策面前逻辑的实践,学界此前多有钻研。   
    朱松纯团队在试验游戏中的机器人零碎,也是基于XAI,但不同的地方在于,人类和机器人的交流形式产生了改动。  
    为了能令人与机器合作实现指标,需求一种人类价值主导的、静态机器-静态用户的交流模式。  
    在这类模式中,机器人除了向人类展现本人的决策进程外,还将按照用户的价值指标即时调剂行动。  


    同时为了即时掌握用户信息,钻研团队采取通信学习取代了传统的数据驱动的机器学习办法,机器将按照所推断出的用户的价值指标进行公道解释。  
    这类协作导向的人机合作要求机用具有心智实践(ToM),即了解别人的心思形态(包罗情绪、信仰、用意、愿望、伪装与常识等)的才能。  
    这一点在多智能体和人机交互环境中尤其首要,由于机器只要无理解人类的形态和用意后能力更好地履行工作,其决策行动又会影响人类做出判别,从而造成一个以人类为核心、人机兼容的合作进程。  
    简略来讲,采取上述办法进行人类和机器人的协同功课,能够同时赋与单方两个身份,聆听者&表白者。  
    这也就象征着,机器人最少无理论上,能够像你的人类团队火伴同样,了解你的心理和价值取向,一致指标进行高效协同了。  


    论文作者引见   
    朱松纯团队由UCLA袁路遥、高晓丰、北京通用人工智能钻研院郑子隆、北大人工智能钻研院朱毅鑫等人组成。  
    该团队长时间从事可解释人工智能相干任务。此文是团队第二篇颁发在 Science Robotics 的对于可解释人工智能的论文。  
    这项钻研涵盖了认知推理、天然言语处置、机器学习、机器人学等多学科畛域,是朱松纯传授团队穿插钻研效果的集中体现。  
    朱松纯传授自己是人工智能畛域寰球著名的学者,曾任UCLA统计学系与计算机系传授,UCLA计算机视觉、认知、学习与自主机器人核心主任。  


    目前,朱松纯同时在清华大学和北大任讲席传授并负责办理职务。他掌管的北京通用人工智能钻研院(BIGAI)也是由清华大学、北大等单位协作撑持。  
    One More Thing   
    最初回到结尾的阿谁问题,《超能陆战队》中的“大白”,真的能在理想中存在吗?  
    事实上,朱松纯团队曾经在着手钻研了。  
    据悉,目前朱松纯团队所在的北京通用人工智能钻研院,联结北大人工智能钻研院等单位,正在就人工智能的一致实践和认知架构进行钻研。  
    将来的标的目的,就是打造拥有自主感知、认知、决策、学习、履行和社会合作才能,合乎人类情感、伦理与品德观点的通用智能体。  
    怎样,你开心的时分能陪你开心,你哀痛的时分能为你拭去泪水,这样的机器人,要不要来一个?  
    参考链接:   
    http://www.science.org/doi/10.十一26/scirobotics.abm4183   
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加咱们,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    ps.加好友请务必备注您的姓名-公司-职位哦~   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子40

    积分184

    图文推荐