华人澳洲中文论坛

热图推荐

    英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

    [复制链接]

    2023-1-30 21:52:07 20 0

    原标题:英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了  
    萧箫 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    分散模型的图象生成统治位置,终于要被GAN夺回了?  
    就在大伙儿喜迎新年之际,英伟达一群迷信家暗暗给StyleGAN系列做了个降级,变出个PLUS版的 StyleGAN-T,一下子在网上火了。   


    无论是在星云爆炸中生成一只柯基:  


    仍是基于空幻引擎格调渲染的森林:  


    展开全文    都只需求 接近0.1秒就可以生成!   
    等同算力下,分散模型中的Stable Diffusion生成一张图片需求 3秒钟,Imagen乃至需求 接近10秒。   
    不少网友的第一反映是:  
    GAN,一个我过久没听到的名字了。
        GAN,一个我过久没听到的名字了。  


    很快谷歌大脑钻研迷信家、DreamFusion第一作者Ben Poole赶来围观,并将StyleGAN-T与分散模型做了个比较:  
    在低品质图象 (64×64)生成方面,StyleGAN-T要比分散模型做得更好。
        在低品质图象 (64×64)生成方面,StyleGAN-T要比分散模型做得更好。   
    但他同时也表现,在256×256图象生成上,仍是分散模型的天下。  
    所以,新版StyleGAN生成品质到底如何,它又到底是在哪些畛域从新具备竞争力的?  
    StyleGAN-T长啥样?   
    比拟分散模型和自回归模型屡次迭代生成样本,GAN最大的劣势是 速度。   
    因此,StyleGAN-T这次也将重心放在了大范围文本图象分解上,即如安在短期内由文本生成少量图象。  
    StyleGAN-T基于StyleGAN-XL改进而来。  
    StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图象,并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。
        StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图象,并鉴戒了StyleGAN2和StyleGAN3的部份架构设计。  
    它的总体架构如下:  


    详细到细节上,作者们对生成器、判断器和文本对齐衡量机制进行了 从新设计,用FID对样实质量进行量化评价,并采取CLIP来对文本进行对齐。   
    在生成器上,作者们保持了StyleGAN3中能完成平移同变性 (equivariance)的架构,转而采取了StyleGAN2的部份设计,包罗输出空间噪声以及跳层衔接等,以晋升细节随机变动的多样性。   
    在判断器上,作者们也从新进行了设计,采取自监视学习对ViT-S进行训练。  
    随后,作者采取了一种特殊的截断 (truncation)办法来管制图象生成的成果,同时衡量生成内容的多样性。   
    只需求管制参数ψ,就可以在确保CLIP分数 (用于评价图象生功效果)变化不大的状况下,改良生成图象的格调多样性。   


    随后,作者们用64个英伟达A100训练了4周,终究失掉了这版StyleGAN-T。  
    那末它的生功效果如何呢?  
    超快生成低分辨率图象   
    作者们对以后最佳的几种GAN、分散模型和自回归模型进行了评价。  
    在微软的MS COCO数据集上,StyleGAN-T完成了64×64分辨率下最高的FID。  
    (其中,FID是计算实在图象和生成图象特点向量间隔的评价用值,数值越低,表现生成的成果越接近实在图象)  


    但在更高的256×256分辨率生成上,StyleGAN-T仍是没有比过分散模型,只是在生功效果上比一样用GAN的LAFITE要好上不少:  


    假如进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图下去比较,还能更直观地比较生成品质和速度。  
    可见StyleGAN-T能放弃在 10FPS的速度下生成256×256分辨率图象,同时FID值迫近LDM和GLIDE等分散模型:   


    而在文本生成图象功用上,作者们也从文本特点、格调管制等方面对模型进行了测试。  
    在减少或改动特定的描述词后,生成的图象的确合乎形容:  


    即使是疾速生成的图象,也能迅速管制格调,如“梵高格调的画”or“动画”等:  


    固然,偶然也有失败案例,最典型的就是生成带字母要求的图象时,显示不出正常字母来:  


    作者们正在致力整顿代码,表现不久之后就会开源。  
    作者引见   
    作者们均来自图宾根大学和英伟达。  
    一作Axel Sauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院 (KIT)获取本硕学位。目前感兴致的钻研标的目的是深度生成模型、神经网络架构和实证钻研。   


    二作Tero Karras,英伟达出色钻研迷信家,对英伟达RTX技术有首要奉献,也是StyleGAN系列的次要作者,次要钻研标的目的是计算机图形学和实时渲染。  


    不外在这波GAN掀起的“文艺振兴”浪潮下,也泛起了“StyleGAN时期迎来终结”的声响。  
    有网友感叹:  
    在这以前,最新StyleGAN生成的图象总能让咱们大吃一惊,但是当初它给咱们的印象只剩下“快”了。
        在这以前,最新StyleGAN生成的图象总能让咱们大吃一惊,但是当初它给咱们的印象只剩下“快”了。  
    你以为GAN还能撼动分散模型的统治位置吗?  
    论文地址:  
    http://arxiv.org/abs/2301.09515  
    名目地址:  
    http://github.com/autonomousvision/stylegan-t  
    —   
    百度钻研院、阿里达摩院、量子位智库  
    年度十大科技讲演  
    总结2022,预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布, 点击下方图片便可跳转查看。   
    百度钻研院  
    阿里达摩院  
    量子位智库  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题25

    帖子29

    积分139

    图文推荐