华人澳洲中文论坛

热图推荐

    ChatGPT发疯怎么办?小冰李笛:两个症结,我可破之

    [复制链接]

    2023-2-27 21:20:45 15 0

    原标题:ChatGPT发疯怎么办?小冰李笛:两个症结,我可破之  
    萧箫 衡宇 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    微软必应接入GPT大模型后,成果并无大家想象中那末好——它发疯了。  


    如今民间紧迫露面,更 (砍)新 (掉)了必应下面最受欢送的功用,也就是颁发观念的才能。   
    大伙儿显然很不买账,以为新必应失去了最无意思的部份,当初版本的体验感乃至不如siri 1.0。  
    有网友寄但愿于必应面前的大模型降级:  
    说不定当初只是GPT-3版本,GPT-4还没公布呢。
        说不定当初只是GPT-3版本,GPT-4还没公布呢。  
    但是据《纽约时报》等爆料,必应面前的大模型极可能就曾经是GPT-4了……  
    咱们将这一景象抛给国际最相熟AI Chat畛域的人—— 李笛。   


         他下去就给热得发烫的大模型浇了盆冷水:  
    新必应和ChatGPT目前表示出来的bug,反应出大模型不能不解决的一个症结问题。
      这个问题能够一时忽视,但做大模型、乃至是类ChatGPT产品,假如不解决它,最终会受阻。
        新必应和ChatGPT目前表示出来的bug,反应出大模型不能不解决的一个症结问题。  
    这个问题能够一时忽视,但做大模型、乃至是类ChatGPT产品,假如不解决它,最终会受阻。  
    这个bug,就是大模型的逻辑才能。  
    大模型:成也逻辑,败也逻辑   
    事件要从ChatGPT面前的GPT-3.5模型说起。  
    从GPT-3.5开始,大模型展示出一种 冲破性的才能——思惟链 (CoT,Chain of Thought),也就是逻辑思考才能。   
    举个例子,在做数学题时,比拟间接输入谜底,模型能 一步步推理直至给出正确谜底,体现的就是思惟链才能:   


    但此前在中小模型、乃至一部份大模型上都没有发现这类才能,学界便以为这是某些大模型特有的“新特性”。  
    基于这一“新特性”,大火的ChatGPT横空出生,在回答问题和颁发看法时展示出了像人同样思考的成果。  


    但是李笛以为,GPT-3.5表示出的这类逻辑才能,是 不不乱、不成控乃至风险的。   
    第一,它的思考形式不通明;第二,它连援用来源都没有。
        第一,它的思考形式不通明;第二,它连援用来源都没有。  
    这两个问题看似被OpenAI用少量人工精密标注的数据、少量的模型参数覆盖了起来,但一旦参加不成控要素 (像必应同样接入互联网、或修正参数等),就随时可能致使模型解体。   
    因此,如今逻辑思考才能正在成为大模型的 双刃剑——   
    使用成果好,大模型迈入新的时期;一旦失控,只会让大模型更难落地。  
    为了举例阐明大模型的逻辑才能存在问题,李笛提到了小冰公司最新公布的产品 小冰链。   
    小冰链 (X-CoTA,X-Chain of Thought & Action)一样是个大言语模型,经过对话的形式帮人们解答问题。   


    但它最典型的不同,在于仅仅用GPT-3参数量2%的模型就完成了思惟链,并且思考进程仍是通明的。  
    模型大小上,它不只不是GPT系列的千亿参数大模型,面前参数只要几百亿乃至最低能降到 35亿;   
    至于 功用上,它回绝像ChatGPT同样生成综述、功课和发言稿,但能完成的功用更多。除了不避忌对事情颁发看法、被动联网找谜底之外,还能灵敏调用各种模型或常识库实现工作。   
    详细来讲,小冰链的架构分为 三个模块。   
    模块一担任应用思惟链 (CoT)才能处置语句。   
    这部份能够调器具备CoT才能的大模型来完成,但也能够调用下面说的35亿参数摆布的中模型,将输出的语句转换成详细行为的Action指令输入。  
    模块二担任履行指令 (Action),这部份接纳并处置模块一输入的Action指令,担任履行对应的工作。   
    按照处置的指令不同,模块二调用的模型和数据也其实不相反,最少有三大使用形式:  
    联网或当地常识库搜寻。既能够追踪互联网查找最新热点、乃至网页跳转,也能够在特定常识库中索引谜底。  调用特定模型做某件事。如调用成果很好的分散模型实现作画、或调用语音模型分解声响等。  管制物理世界特定行动。如开灯、买机票、打车等,纷歧定是特定指令,而是模型推断后得出的论断。    模块三担任天然言语生成,简略来讲就是将思考行为的后果用人话形容一遍,再报告请示给用户。   
    总结来看,小冰链能够说是把ChatGPT最火的“思考形式”拿出来独自做成模型,其实不断升高模型大小。  
    李笛以为,即便小冰链的中心模型大小只要中等程度,却也能在一些问题的思考形式上展示出与大模型相近的成果。  


      
    还能联网,抢在吃瓜第一线   
    基于这样的观念,李笛在一众主流“要做中国的ChatGPT”呼声中反其道而行之,不只不鼓吹自家类ChatGPT产品,乃至推出了个强调“这不是ChatGPT”的小冰链。  
    看起来似乎有点非主流 (手动狗头)。   
    这么做,真有实践依据吗?  
    面前的技术依据CoT,的确在国外已有不少相干钻研,包罗前段时间爆火的“哄一哄让GPT-3精确率暴跌”论文也在此列:  


    团队在钻研中发现,只有对GPT-3说一句“让咱们一步一步地思考”,就可以让它正确回答出之前不会的逻辑推理题,好比上面这个来自MutiArith数据集的例子:  
    16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?
        16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?  
    这些例子专门考验言语模型做数学题的才能,尤为是逻辑推理才能。  
    GPT-3原本在零样本场景 (以前彻底没见过相似体型)下精确率仅有 17%,但在要求它一步步思考后,精确率最高能暴跌到 78.7%。   


    这类名为CoT的办法,最先在去年1月由谷歌大脑团队发现并提出。  


    其中心思绪是基于提醒 (prompting)的办法,让大模型学习一步步思考的进程,有逻辑地解决实际问题:   


    但上述思惟链 (CoT)论文根本都还停留在对大模型的钻研上。   
    李笛却以为,思惟链所代表的逻辑才能不是专属于大模型的产物。  
    在国际,“AI”也许曾经是一集体尽皆知的词语,也是进行得如火如荼的翻新风潮。  
    假如李笛所述办法得以验证,那末AI产业化运用除了“堆参数”、“砸资金”这一条大模型线路之外,也许还有其余前途。  
    国际AI运用落地,权势三分   
    ChatGPT的成果和热度,让走在大模型线路上的人们看到了一丝曙光,但其实不象征着AI产业化线路只剩下大模型这一种可能。  
    或者说,ChatGPT的热度,反而能更光鲜地呈现出当下国际外AI运用落地的现状和趋向。  
    先提纲挈领地讲,次要门路能够分为三条。  
    第一种就是间接做底层大模型。  
    这是最间接、最容易了解,同时也是最难走的一条路。  
    一方面,大模型 需求的训练数据是海量的,而理想状况是可用作训练的数据、尤为是中文数据较少。   
    以比来的热点举例阐明,复旦邱锡鹏传授团队推出的中国首个类ChatGPT产品MOSS,最大短板是 中文程度不敷高,首要缘故之一就是面前大模型训练时不足高品质的中文语料。   
    另外一方面,大模型的 参数是海量的。ChatGPT每一个句看似冗长的回答,都把1750亿参数调动了一次。   
    巨量参数首先给标注工程带来了 微小的任务量,为了应答这个环节,OpenAI在肯尼亚以低于2美元的时薪雇佣少量工人,废寝忘食地进行数据的筛选标注。放眼国际,能拿出如斯多人力耗在标注任务的,大约只要字节跳动、百度等巨头公司。   
    上述两个方面,最初的箭头都直指同一个问题:本钱,无奈估计的本钱。  
    OpenAI CEO奥特曼曾在推特上透露,ChatGPT每次对话的计算本钱为5美分,“让人难以忍耐”。5美分这个数字看似薄弱,但是每集体天天与ChatGPT对话的数量、以及不停增长的使用人数,叠加起来将会达到一个十分恐惧的量级。  
    谷歌母公司Alphabet的董事长ohn Hennessy在本周表现,大型言语模型等AI对话本钱,多是传统搜寻引擎的10倍以上。此前摩根士丹利估量,2022年谷歌的3.3万亿次搜寻查问,每次本钱为0.2美分,假如接入Bard这种产品,按照AI文本生成的长度,这个数字还会减少。  
    相似ChatGPT的AI每次回答50字,往返答个别的查问业务,那末谷歌每一年本钱将减少 60亿美元
        相似ChatGPT的AI每次回答50字,往返答个别的查问业务,那末谷歌每一年本钱将减少 60亿美元。   
    值得留意的是,无论哪位国际玩家堆出了一个与GPT-3.5乃至GPT-4媲美的大模型,还须找到可以落地跑起来的运用场景,惟有完成商业闭环,才不致血本无归。  


    第二条路,是从大模型中去粗取精。   
    展开来讲,就是在尽量保存、乃至进步大模型某一单项才能的条件下,放大参数量级,努力于用更小的模型完成大模型表示出来的功用。  
    假如把大模型看做一辆自行车,堆参数的进程就是在大模型上完成某个成果的进程,进程艰苦而迟缓。去粗取精之后,不必自行车迟缓前行就可以达到成果,至关于在通往同一指标的路上造火箭。  
    亚马逊在走这条路,办法是间接从小模型起手,不外这条路能走通,需求一个症结条件:中小模型能够接近、乃至达到大模型展示出来的实用才能。  
    砍掉不需求的枝叶,向下探究拥有特定功用的模型范围最低上限,可以一定水平上减缓大模型训练带来的本钱压力。  
    但这条线路亦有争议,一是由于ChatGPT大模型曾经展示出运用可行性,坚持这类做法必将在技术上顺流而行;二是即使本钱更优,却尚未有理想案例压阵,证实这类线路就可以在AI运用落地较量中取得最初的成功。  


    第三条路与前二者不同,并不是技术差别,而是间接从商业化角度打出竞争劣势。  
    这种玩家不需求在技术上多下文章,而更考验商业翻新才能,属于想好场景运用后“拿钉找锤”的模式。  
    目前,国外曾经有顺着这条路开展的可参考案例,好比AI初创公司Jasper,就是基于GPT-3凋谢的API提供各式办事,利用AI为博客文章、社交媒体帖子及网页等平台生成文字内容。  
    凡是产品体验足够好,或者场景资源足够丰厚,就可以积累少量用户,造成本人的中心竞争力。  
    反向思考之,正由于中心竞争力不是技术上的,走这条路的公司,头顶永久悬着一柄达摩克利斯之剑。把产品乃至公司的命运寄托在别人手中,随时有被卡脖子的危险,如何能时时刻胆战心惊?  
    三条线路摆在眼前,利害也曾经初步浮现。第一条路,象征着微小的本钱;第二条路,计划尚待验证;第三条路,中心出产材料不成控。  
    哪一条才通向罗马?又或者,这三条路以外,是不是还会泛起纵贯AI运用落地的潜伏捷径?  
    李笛说,他们选择第二条路。小冰链也恰是基于这条门路之上探究出来的产物,实质上依旧是从“可解释人工智能”的角度,探究本钱、危险可控的AI商业化落地运用。   
    至于计划验证,也许也不必等过久,李笛说,将来小冰链会和必应协作,将这类办法运用到搜寻引擎上。  
    实际运用成果如何,咱们刮目相待。  
    分割作者—   
    —   
    《中国AIGC产业全景讲演暨AIGC 50》调研启动  
    谁会是中国的“ChatGPT”?最有竞争力和后劲的AIGC气力位于何方?  
    量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术可以被公众看到。   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题23

    帖子26

    积分122

    图文推荐