华人澳洲中文论坛

英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

[复制链接]

2023-1-30 21:52:07 52 0

原标题:英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了  
萧箫 发自 凹非寺   
量子位 | 大众号 QbitAI   
分散模型的图象生成统治位置,终于要被GAN夺回了?  
就在大伙儿喜迎新年之际,英伟达一群迷信家暗暗给StyleGAN系列做了个降级,变出个PLUS版的 StyleGAN-T,一下子在网上火了。   


无论是在星云爆炸中生成一只柯基:  


仍是基于空幻引擎格调渲染的森林:  


展开全文    都只需求 接近0.1秒就可以生成!   
等同算力下,分散模型中的Stable Diffusion生成一张图片需求 3秒钟,Imagen乃至需求 接近10秒。   
不少网友的第一反映是:  
GAN,一个我过久没听到的名字了。
    GAN,一个我过久没听到的名字了。  


很快谷歌大脑钻研迷信家、DreamFusion第一作者Ben Poole赶来围观,并将StyleGAN-T与分散模型做了个比较:  
在低品质图象 (64×64)生成方面,StyleGAN-T要比分散模型做得更好。
    在低品质图象 (64×64)生成方面,StyleGAN-T要比分散模型做得更好。   
但他同时也表现,在256×256图象生成上,仍是分散模型的天下。  
所以,新版StyleGAN生成品质到底如何,它又到底是在哪些畛域从新具备竞争力的?  
StyleGAN-T长啥样?   
比拟分散模型和自回归模型屡次迭代生成样本,GAN最大的劣势是 速度。   
因此,StyleGAN-T这次也将重心放在了大范围文本图象分解上,即如安在短期内由文本生成少量图象。  
StyleGAN-T基于StyleGAN-XL改进而来。  
StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图象,并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。
    StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图象,并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。  
它的总体架构如下:  


详细到细节上,作者们对生成器、判断器和文本对齐衡量机制进行了 从新设计,用FID对样实质量进行量化评价,并采取CLIP来对文本进行对齐。   
在生成器上,作者们保持了StyleGAN3中能完成平移同变性 (equivariance)的架构,转而采取了StyleGAN2的部份设计,包罗输出空间噪声以及跳层衔接等,以晋升细节随机变动的多样性。   
在判断器上,作者们也从新进行了设计,采取自监视学习对ViT-S进行训练。  
随后,作者采取了一种特殊的截断 (truncation)办法来管制图象生成的成果,同时衡量生成内容的多样性。   
只需求管制参数ψ,就可以在确保CLIP分数 (用于评价图象生功效果)变化不大的状况下,改良生成图象的格调多样性。   


随后,作者们用64个英伟达A100训练了4周,终究失掉了这版StyleGAN-T。  
那末它的生功效果如何呢?  
超快生成低分辨率图象   
作者们对以后最佳的几种GAN、分散模型和自回归模型进行了评价。  
在微软的MS COCO数据集上,StyleGAN-T完成了64×64分辨率下最高的FID。  
(其中,FID是计算实在图象和生成图象特点向量间隔的评价用值,数值越低,表现生成的成果越接近实在图象)  


但在更高的256×256分辨率生成上,StyleGAN-T仍是没有比过分散模型,只是在生功效果上比一样用GAN的LAFITE要好上不少:  


假如进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图下去比较,还能更直观地比较生成品质和速度。  
可见StyleGAN-T能放弃在 10FPS的速度下生成256×256分辨率图象,同时FID值迫近LDM和GLIDE等分散模型:   


而在文本生成图象功用上,作者们也从文本特点、格调管制等方面对模型进行了测试。  
在减少或改动特定的描述词后,生成的图象的确合乎形容:  


即使是疾速生成的图象,也能迅速管制格调,如“梵高格调的画”or“动画”等:  


固然,偶然也有失败案例,最典型的就是生成带字母要求的图象时,显示不出正常字母来:  


作者们正在致力整顿代码,表现不久之后就会开源。  
作者引见   
作者们均来自图宾根大学和英伟达。  
一作Axel Sauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院 (KIT)获取本硕学位。目前感兴致的钻研标的目的是深度生成模型、神经网络架构和实证钻研。   


二作Tero Karras,英伟达出色钻研迷信家,对英伟达RTX技术有首要奉献,也是StyleGAN系列的次要作者,次要钻研标的目的是计算机图形学和实时渲染。  


不外在这波GAN掀起的“文艺振兴”浪潮下,也泛起了“StyleGAN时期迎来终结”的声响。  
有网友感叹:  
在这以前,最新StyleGAN生成的图象总能让咱们大吃一惊,但是当初它给咱们的印象只剩下“快”了。
    在这以前,最新StyleGAN生成的图象总能让咱们大吃一惊,但是当初它给咱们的印象只剩下“快”了。  
你以为GAN还能撼动分散模型的统治位置吗?  
论文地址:  
http://arxiv.org/abs/2301.09515  
名目地址:  
http://github.com/autonomousvision/stylegan-t  
—   
百度钻研院、阿里达摩院、量子位智库  
年度十大科技讲演  
总结2022,预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布, 点击下方图片便可跳转查看。   
百度钻研院  
阿里达摩院  
量子位智库  
点这里 ?关注我,记得标星哦~   
一键三连「分享」、「点赞」和「在看」  
科技前沿停顿日日相见 ~

发表回复

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则

:
注册会员
:
论坛短信
:
未填写
:
未填写
:
未填写

主题25

帖子30

积分143

图文推荐

  • 撞穿学校栅栏害死十一岁男孩的司机不必坐牢

    一位女司机撞穿学校栅栏、害死了11岁男孩,被罚20

  • 全科医生正告花粉症时节正在好转

    全国各地的全科医生正告春季的开端标记着花粉症时

  • 新西兰总理:出世在新西兰的新纳粹Thomas S

    新西兰总理拉克森称新纳粹Thomas Sewell是坏人,

  • 新州护士和助产士承受暂时加薪3%的前提

    新州护士和助产士投票承受政府提出的暂时加薪3%以

  • 新纳粹份子如何利用“普通父母”的掩护在反

    星期天,新纳粹份子在反移民集会开端前大约一个小