华人澳洲中文论坛

热图推荐

    效力碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS

    [复制链接]

    2023-1-7 18:06:21 36 0

    原标题:效力碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS  
    Alex 羿阁 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    新年伊始,谷歌AI又开始发力 文字-图象生成模型了。   
    这次,他们的新模型 Muse(缪斯)在CC3M数据集上达成为了 新SOTA(目前最好程度) 。  
    并且其效力远超火爆寰球的 DALL·E 2和Imagen(这俩都属于分散模型),以及 Parti(属于自回归模型)。   
    ——单张5十二x5十二分辨率图象的生成时间被紧缩到仅1.3秒。  

    0vqx4w3qjik.jpg

    0vqx4w3qjik.jpg


    假如想要成果更精准,还能选定遮罩地位,编纂特定区域。好比,把配景的修建换成热气球。  
    展开全文   

    ezv1sds1e5j.jpg

    ezv1sds1e5j.jpg


    Muse一经官宣,很快吸引了大波关注,目前原贴已播种4000+点赞。  

    vhheghf2tgf.jpg

    vhheghf2tgf.jpg


    看到谷歌的又一力作,有人乃至曾经开始预言:  
    当初AI开发者的竞争十分剧烈,看来2023将是十分精彩的一年。
        当初AI开发者的竞争十分剧烈,看来2023将是十分精彩的一年。  
    比DALL·E 2和Imagen更高效   
    说回谷歌刚刚地下的 Muse。  
    首先,就生成图片的品质来讲,Muse的作品大都画质明晰、成果天然。  
    来看看更多例子感触一下~  
    好比戴着毛线帽的树懒宝宝正在操作电脑;再好比羽觞中的一只羊:  

    giy5tw50efa.jpg

    giy5tw50efa.jpg


    平时八棍子撂不着的各种主体,在一张图里调和共存,没啥违和感。  
    要是你感觉这些还只能算AIGC的基操,那无妨再看看Muse的编纂功用。  
    好比一键换装 (还能换性别):   
    这既不需求加甚么遮罩,还能一句话搞定。  
    而假如用上遮罩的话,就可以完成更6的操作,包罗一键切换配景,从原地切换到纽约、巴黎、再到旧金山。  
    还能从海边到伦敦、到花海,乃至飞到太空中的土星环上,玩一把安慰的滑板海豚跳。  
    (好家伙,不只能轻松云游览,还能一键入地......)  
    成果着实挺杰出。那Muse面前都有哪些技术反对?为何效力比DALL·E 2和Imagen更高?  
    一个首要的缘故是,DALL·E 2和Imagen在训练过程当中,需求将一切学到的常识都存储在模型参数中。  
    因而,它们不能不需求愈来愈大的模型、愈来愈多的训练数据来获得更多常识——将Better和Bigger绑在了一同。  
    代价就是参数量微小,效力也遭到了影响。  
    而据谷歌AI团队引见,他们采取的次要办法名曰: 掩码图象建模 (Masked image modeling)。   
    这是一种新兴的自监视预训练办法,其根本思想简略来讲就是:  
    输出图象的一部份被随机屏蔽掉,而后经过预训练文本工作进行重建。
        输出图象的一部份被随机屏蔽掉,而后经过预训练文本工作进行重建。  
    Muse模型在离散标志的空间掩码上训练,并结合从预训练言语大模型中提取的文本,预测随机遮盖的图象标志。  

    le3nchhmxuh.jpg

    le3nchhmxuh.jpg


    从上到下挨次为:预训练的文本编码器、根底模型、超分辨率模型   
    谷歌团队发现,使用事后训练好的大言语模型,能够让AI对言语的了解更为粗疏透辟。  
    就输入而言,因为AI对物体的空间瓜葛、姿势等因素驾驭得很不错,所以生成的图象能够做到高保真。  
    与DALL·E 2、Imagen等像素空间的分散模型比拟,Muse用的是 离散的token,而且采样迭代较少。   
    此外,和Parti等自回归模型比拟,Muse使用了 并行解码,效力也更高。   
    FID上获SOTA得分   
    前文提到, Muse不只在效力上取患了晋升,在生成图象品质上也十分优秀。   
    钻研者把它与DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti进行PK,测试了它们的FID和CLIP分数。  
    (FID分数用于评价生成图象的品质,分数越低品质越高;CLIP分数则代表文本与图象的契合水平,分数越高越好。)  
    后果显示,Muse-3B模型在COCO验证集中的zero-shot FID-30K得分为7.88,仅次于参数更大的Imagen-3.4B和Parti-20B模型。  

    bkjiveajye4.jpg

    bkjiveajye4.jpg


    更优秀的是,Muse-900M模型在CC3M数据集上完成了新的SOTA,FID得分为6.06,这也象征着它与文字的婚配度是最高的。  
    同时,该模型的CLIP分数为0.26,也达到了同期最高程度。  
    除此以外,为了进一步证明Muse的出图效力,钻研者还比较了Muse与其余模型的单张图象生成时间:  
    在256x256、5十二x5十二的分辨率上Muse均达到了最疾速度:0.5s和1.3s。  

    lpl2ffnhf54.jpg

    lpl2ffnhf54.jpg


    钻研团队   
    Muse的钻研团队来自谷歌,两位独特一作分别是Huiwen Chang和Han Zhang。  
    Huiwen Chang,现为谷歌初级钻研员。  
    她本科就读于清华大学,博士结业于普林斯顿大学,有过在Adobe、Facebook等的实习阅历。  

    irmwwhp3t21.jpg

    irmwwhp3t21.jpg


    Han Zhang,本科结业于中国农业大学,硕士就读于北京邮电大学,后在罗格斯大学取患了计算机迷信博士学位。  
    其钻研标的目的是计算机视觉,深度学习和医学图象剖析等。  

    llhw51chmig.jpg

    llhw51chmig.jpg


    不外值得一提的是,目前Muse尚无正式公布。  
    有网友调侃,虽然它应该很香,但以谷歌的“尿性”,Muse离正式公布可能还有很长期——毕竟他们还有18年的AI都没发呢。  

    tri25c5gsro.jpg

    tri25c5gsro.jpg


    话说回来,你感觉Muse的成果怎样?  
    关于其正式公布之事,有木有一点期待?  
    传送门:http://muse-model.github.io/  
    参考链接:http://twitter.com/AlphaSignalAI/status/1610404589966180360  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    PS. 加好友请务必备注您的姓名-公司-职位噢 ~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题29

    帖子36

    积分163

    图文推荐