效力碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS

mega

原标题：效力碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS
Alex 羿阁发自凹非寺
量子位 | 大众号 QbitAI
新年伊始，谷歌AI又开始发力 文字-图象生成模型了。
这次，他们的新模型 Muse（缪斯）在CC3M数据集上达成为了 新SOTA（目前最好程度）。
并且其效力远超火爆寰球的 DALL·E 2和Imagen（这俩都属于分散模型），以及 Parti（属于自回归模型）。
——单张5十二x5十二分辨率图象的生成时间被紧缩到仅1.3秒。

0vqx4w3qjik.jpg

假如想要成果更精准，还能选定遮罩地位，编纂特定区域。好比，把配景的修建换成热气球。
展开全文

ezv1sds1e5j.jpg

Muse一经官宣，很快吸引了大波关注，目前原贴已播种4000+点赞。

vhheghf2tgf.jpg

看到谷歌的又一力作，有人乃至曾经开始预言：
当初AI开发者的竞争十分剧烈，看来2023将是十分精彩的一年。
当初AI开发者的竞争十分剧烈，看来2023将是十分精彩的一年。
比DALL·E 2和Imagen更高效
说回谷歌刚刚地下的 Muse。
首先，就生成图片的品质来讲，Muse的作品大都画质明晰、成果天然。
来看看更多例子感触一下~
好比戴着毛线帽的树懒宝宝正在操作电脑；再好比羽觞中的一只羊：

giy5tw50efa.jpg

平时八棍子撂不着的各种主体，在一张图里调和共存，没啥违和感。
要是你感觉这些还只能算AIGC的基操，那无妨再看看Muse的编纂功用。
好比一键换装（还能换性别）：
这既不需求加甚么遮罩，还能一句话搞定。
而假如用上遮罩的话，就可以完成更6的操作，包罗一键切换配景，从原地切换到纽约、巴黎、再到旧金山。
还能从海边到伦敦、到花海，乃至飞到太空中的土星环上，玩一把安慰的滑板海豚跳。
（好家伙，不只能轻松云游览，还能一键入地......）
成果着实挺杰出。那Muse面前都有哪些技术反对？为何效力比DALL·E 2和Imagen更高？
一个首要的缘故是，DALL·E 2和Imagen在训练过程当中，需求将一切学到的常识都存储在模型参数中。
因而，它们不能不需求愈来愈大的模型、愈来愈多的训练数据来获得更多常识——将Better和Bigger绑在了一同。
代价就是参数量微小，效力也遭到了影响。
而据谷歌AI团队引见，他们采取的次要办法名曰： 掩码图象建模 （Masked image modeling）。
这是一种新兴的自监视预训练办法，其根本思想简略来讲就是：
输出图象的一部份被随机屏蔽掉，而后经过预训练文本工作进行重建。
输出图象的一部份被随机屏蔽掉，而后经过预训练文本工作进行重建。
Muse模型在离散标志的空间掩码上训练，并结合从预训练言语大模型中提取的文本，预测随机遮盖的图象标志。

le3nchhmxuh.jpg

从上到下挨次为：预训练的文本编码器、根底模型、超分辨率模型
谷歌团队发现，使用事后训练好的大言语模型，能够让AI对言语的了解更为粗疏透辟。
就输入而言，因为AI对物体的空间瓜葛、姿势等因素驾驭得很不错，所以生成的图象能够做到高保真。
与DALL·E 2、Imagen等像素空间的分散模型比拟，Muse用的是 离散的token，而且采样迭代较少。
此外，和Parti等自回归模型比拟，Muse使用了 并行解码，效力也更高。
FID上获SOTA得分
前文提到， Muse不只在效力上取患了晋升，在生成图象品质上也十分优秀。
钻研者把它与DALL·E、LAFITE、LDM、GLIDE、DALL·E 2，以及谷歌自家的Imagen和Parti进行PK，测试了它们的FID和CLIP分数。
（FID分数用于评价生成图象的品质，分数越低品质越高；CLIP分数则代表文本与图象的契合水平，分数越高越好。）
后果显示，Muse-3B模型在COCO验证集中的zero-shot FID-30K得分为7.88，仅次于参数更大的Imagen-3.4B和Parti-20B模型。

bkjiveajye4.jpg

更优秀的是，Muse-900M模型在CC3M数据集上完成了新的SOTA，FID得分为6.06，这也象征着它与文字的婚配度是最高的。
同时，该模型的CLIP分数为0.26，也达到了同期最高程度。
除此以外，为了进一步证明Muse的出图效力，钻研者还比较了Muse与其余模型的单张图象生成时间：
在256x256、5十二x5十二的分辨率上Muse均达到了最疾速度：0.5s和1.3s。

lpl2ffnhf54.jpg

钻研团队
Muse的钻研团队来自谷歌，两位独特一作分别是Huiwen Chang和Han Zhang。
Huiwen Chang，现为谷歌初级钻研员。
她本科就读于清华大学，博士结业于普林斯顿大学，有过在Adobe、Facebook等的实习阅历。

irmwwhp3t21.jpg

Han Zhang，本科结业于中国农业大学，硕士就读于北京邮电大学，后在罗格斯大学取患了计算机迷信博士学位。
其钻研标的目的是计算机视觉，深度学习和医学图象剖析等。

llhw51chmig.jpg

不外值得一提的是，目前Muse尚无正式公布。
有网友调侃，虽然它应该很香，但以谷歌的“尿性”，Muse离正式公布可能还有很长期——毕竟他们还有18年的AI都没发呢。

tri25c5gsro.jpg

话说回来，你感觉Muse的成果怎样？
关于其正式公布之事，有木有一点期待？
传送门：http://muse-model.github.io/
参考链接：http://twitter.com/AlphaSignalAI/status/1610404589966180360
— 完—
「人工智能」、「智能汽车」微信社群邀你参加！
欢送关注人工智能、智能汽车的小火伴们参加交流群，与AI从业者交流、切磋，不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

效力碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS

发表回复

浏览过的版块

mega
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

效力碾压DALL·E 2和Imagen，谷歌新模型达成新SOTA，还能一句话搞定PS

发表回复

浏览过的版块

mega 关注TA

图文推荐

mega
关注TA