|
原标题:效力碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS
Alex 羿阁 发自 凹非寺
量子位 | 大众号 QbitAI
新年伊始,谷歌AI又开始发力 文字-图象生成模型了。
这次,他们的新模型 Muse(缪斯)在CC3M数据集上达成为了 新SOTA(目前最好程度) 。
并且其效力远超火爆寰球的 DALL·E 2和Imagen(这俩都属于分散模型),以及 Parti(属于自回归模型)。
——单张5十二x5十二分辨率图象的生成时间被紧缩到仅1.3秒。
0vqx4w3qjik.jpg
假如想要成果更精准,还能选定遮罩地位,编纂特定区域。好比,把配景的修建换成热气球。
展开全文
ezv1sds1e5j.jpg
Muse一经官宣,很快吸引了大波关注,目前原贴已播种4000+点赞。
vhheghf2tgf.jpg
看到谷歌的又一力作,有人乃至曾经开始预言:
当初AI开发者的竞争十分剧烈,看来2023将是十分精彩的一年。
当初AI开发者的竞争十分剧烈,看来2023将是十分精彩的一年。
比DALL·E 2和Imagen更高效
说回谷歌刚刚地下的 Muse。
首先,就生成图片的品质来讲,Muse的作品大都画质明晰、成果天然。
来看看更多例子感触一下~
好比戴着毛线帽的树懒宝宝正在操作电脑;再好比羽觞中的一只羊:
giy5tw50efa.jpg
平时八棍子撂不着的各种主体,在一张图里调和共存,没啥违和感。
要是你感觉这些还只能算AIGC的基操,那无妨再看看Muse的编纂功用。
好比一键换装 (还能换性别):
这既不需求加甚么遮罩,还能一句话搞定。
而假如用上遮罩的话,就可以完成更6的操作,包罗一键切换配景,从原地切换到纽约、巴黎、再到旧金山。
还能从海边到伦敦、到花海,乃至飞到太空中的土星环上,玩一把安慰的滑板海豚跳。
(好家伙,不只能轻松云游览,还能一键入地......)
成果着实挺杰出。那Muse面前都有哪些技术反对?为何效力比DALL·E 2和Imagen更高?
一个首要的缘故是,DALL·E 2和Imagen在训练过程当中,需求将一切学到的常识都存储在模型参数中。
因而,它们不能不需求愈来愈大的模型、愈来愈多的训练数据来获得更多常识——将Better和Bigger绑在了一同。
代价就是参数量微小,效力也遭到了影响。
而据谷歌AI团队引见,他们采取的次要办法名曰: 掩码图象建模 (Masked image modeling)。
这是一种新兴的自监视预训练办法,其根本思想简略来讲就是:
输出图象的一部份被随机屏蔽掉,而后经过预训练文本工作进行重建。
输出图象的一部份被随机屏蔽掉,而后经过预训练文本工作进行重建。
Muse模型在离散标志的空间掩码上训练,并结合从预训练言语大模型中提取的文本,预测随机遮盖的图象标志。
le3nchhmxuh.jpg
从上到下挨次为:预训练的文本编码器、根底模型、超分辨率模型
谷歌团队发现,使用事后训练好的大言语模型,能够让AI对言语的了解更为粗疏透辟。
就输入而言,因为AI对物体的空间瓜葛、姿势等因素驾驭得很不错,所以生成的图象能够做到高保真。
与DALL·E 2、Imagen等像素空间的分散模型比拟,Muse用的是 离散的token,而且采样迭代较少。
此外,和Parti等自回归模型比拟,Muse使用了 并行解码,效力也更高。
FID上获SOTA得分
前文提到, Muse不只在效力上取患了晋升,在生成图象品质上也十分优秀。
钻研者把它与DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti进行PK,测试了它们的FID和CLIP分数。
(FID分数用于评价生成图象的品质,分数越低品质越高;CLIP分数则代表文本与图象的契合水平,分数越高越好。)
后果显示,Muse-3B模型在COCO验证集中的zero-shot FID-30K得分为7.88,仅次于参数更大的Imagen-3.4B和Parti-20B模型。
bkjiveajye4.jpg
更优秀的是,Muse-900M模型在CC3M数据集上完成了新的SOTA,FID得分为6.06,这也象征着它与文字的婚配度是最高的。
同时,该模型的CLIP分数为0.26,也达到了同期最高程度。
除此以外,为了进一步证明Muse的出图效力,钻研者还比较了Muse与其余模型的单张图象生成时间:
在256x256、5十二x5十二的分辨率上Muse均达到了最疾速度:0.5s和1.3s。
lpl2ffnhf54.jpg
钻研团队
Muse的钻研团队来自谷歌,两位独特一作分别是Huiwen Chang和Han Zhang。
Huiwen Chang,现为谷歌初级钻研员。
她本科就读于清华大学,博士结业于普林斯顿大学,有过在Adobe、Facebook等的实习阅历。
irmwwhp3t21.jpg
Han Zhang,本科结业于中国农业大学,硕士就读于北京邮电大学,后在罗格斯大学取患了计算机迷信博士学位。
其钻研标的目的是计算机视觉,深度学习和医学图象剖析等。
llhw51chmig.jpg
不外值得一提的是,目前Muse尚无正式公布。
有网友调侃,虽然它应该很香,但以谷歌的“尿性”,Muse离正式公布可能还有很长期——毕竟他们还有18年的AI都没发呢。
tri25c5gsro.jpg
话说回来,你感觉Muse的成果怎样?
关于其正式公布之事,有木有一点期待?
传送门:http://muse-model.github.io/
参考链接:http://twitter.com/AlphaSignalAI/status/1610404589966180360
— 完—
「人工智能」、「智能汽车」微信社群邀你参加!
欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~ |
|