英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

larfe

原标题：英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了
萧箫发自凹非寺
量子位 | 大众号 QbitAI
分散模型的图象生成统治位置，终于要被GAN夺回了？
就在大伙儿喜迎新年之际，英伟达一群迷信家暗暗给StyleGAN系列做了个降级，变出个PLUS版的 StyleGAN-T，一下子在网上火了。

无论是在星云爆炸中生成一只柯基：

仍是基于空幻引擎格调渲染的森林：

展开全文都只需求 接近0.1秒就可以生成！
等同算力下，分散模型中的Stable Diffusion生成一张图片需求 3秒钟，Imagen乃至需求 接近10秒。
不少网友的第一反映是：
GAN，一个我过久没听到的名字了。
GAN，一个我过久没听到的名字了。

很快谷歌大脑钻研迷信家、DreamFusion第一作者Ben Poole赶来围观，并将StyleGAN-T与分散模型做了个比较：
在低品质图象（64×64）生成方面，StyleGAN-T要比分散模型做得更好。
在低品质图象（64×64）生成方面，StyleGAN-T要比分散模型做得更好。
但他同时也表现，在256×256图象生成上，仍是分散模型的天下。
所以，新版StyleGAN生成品质到底如何，它又到底是在哪些畛域从新具备竞争力的？
StyleGAN-T长啥样？
比拟分散模型和自回归模型屡次迭代生成样本，GAN最大的劣势是速度。
因此，StyleGAN-T这次也将重心放在了大范围文本图象分解上，即如安在短期内由文本生成少量图象。
StyleGAN-T基于StyleGAN-XL改进而来。
StyleGAN-XL的参数量是StyleGAN3的3倍，基于ImageNet训练，能生成1024×1024高分辨率的图象，并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。
StyleGAN-XL的参数量是StyleGAN3的3倍，基于ImageNet训练，能生成1024×1024高分辨率的图象，并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。
它的总体架构如下：

详细到细节上，作者们对生成器、判断器和文本对齐衡量机制进行了 从新设计，用FID对样实质量进行量化评价，并采取CLIP来对文本进行对齐。
在生成器上，作者们保持了StyleGAN3中能完成平移同变性（equivariance）的架构，转而采取了StyleGAN2的部份设计，包罗输出空间噪声以及跳层衔接等，以晋升细节随机变动的多样性。
在判断器上，作者们也从新进行了设计，采取自监视学习对ViT-S进行训练。
随后，作者采取了一种特殊的截断（truncation）办法来管制图象生成的成果，同时衡量生成内容的多样性。
只需求管制参数ψ，就可以在确保CLIP分数（用于评价图象生功效果）变化不大的状况下，改良生成图象的格调多样性。

随后，作者们用64个英伟达A100训练了4周，终究失掉了这版StyleGAN-T。
那末它的生功效果如何呢？
超快生成低分辨率图象
作者们对以后最佳的几种GAN、分散模型和自回归模型进行了评价。
在微软的MS COCO数据集上，StyleGAN-T完成了64×64分辨率下最高的FID。
（其中，FID是计算实在图象和生成图象特点向量间隔的评价用值，数值越低，表现生成的成果越接近实在图象）

但在更高的256×256分辨率生成上，StyleGAN-T仍是没有比过分散模型，只是在生功效果上比一样用GAN的LAFITE要好上不少：

假如进一步将生成时间和FID分别作为纵轴和横轴，放到同一张图下去比较，还能更直观地比较生成品质和速度。
可见StyleGAN-T能放弃在 10FPS的速度下生成256×256分辨率图象，同时FID值迫近LDM和GLIDE等分散模型：

而在文本生成图象功用上，作者们也从文本特点、格调管制等方面对模型进行了测试。
在减少或改动特定的描述词后，生成的图象的确合乎形容：

即使是疾速生成的图象，也能迅速管制格调，如“梵高格调的画”or“动画”等：

固然，偶然也有失败案例，最典型的就是生成带字母要求的图象时，显示不出正常字母来：

作者们正在致力整顿代码，表现不久之后就会开源。
作者引见
作者们均来自图宾根大学和英伟达。
一作Axel Sauer，图宾根大学博士生，此前在卡尔斯鲁厄理工学院（KIT）获取本硕学位。目前感兴致的钻研标的目的是深度生成模型、神经网络架构和实证钻研。

二作Tero Karras，英伟达出色钻研迷信家，对英伟达RTX技术有首要奉献，也是StyleGAN系列的次要作者，次要钻研标的目的是计算机图形学和实时渲染。

不外在这波GAN掀起的“文艺振兴”浪潮下，也泛起了“StyleGAN时期迎来终结”的声响。
有网友感叹：
在这以前，最新StyleGAN生成的图象总能让咱们大吃一惊，但是当初它给咱们的印象只剩下“快”了。
在这以前，最新StyleGAN生成的图象总能让咱们大吃一惊，但是当初它给咱们的印象只剩下“快”了。
你以为GAN还能撼动分散模型的统治位置吗？
论文地址：
http://arxiv.org/abs/2301.09515
名目地址：
http://github.com/autonomousvision/stylegan-t
— 完—
百度钻研院、阿里达摩院、量子位智库
年度十大科技讲演
总结2022，预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布， 点击下方图片便可跳转查看。
百度钻研院
阿里达摩院
量子位智库
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

发表回复

浏览过的版块

larfe
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

英伟达超快StyleGAN回归，比Stable Diffusion快30多倍，网友：GAN好像只剩下快了

发表回复

浏览过的版块

larfe 关注TA

图文推荐

larfe
关注TA