2022生成模型停顿有多快？新论文清点9类生成模型代表作

kitty919

原标题：2022生成模型停顿有多快？新论文清点9类生成模型代表作
萧箫发自凹非寺
量子位 | 大众号 QbitAI
ChatGPT的泛起，完全将生成AI推向发作。
但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输出的就有7种——
图象、视频、代码、3D模型、音频、文本、迷信常识……
尤为2022年，成果好的AI生成模型层见叠出，又以OpenAI、Meta、DeepMind和谷歌等为中心，发了不少达到SOTA的模型。

zu3iit4jnil.jpg

这不，立刻有学者写了篇论文，对2022年新泛起的主流生成模型进行了年初清点。

f1irj2z2o40.jpg

一同来看看这两年间，各畛域的AI生成模型停顿到底怎样了。
9大生成模型，最新代表作是？
展开全文这篇论文将AI生成模型分红了9大类。
下图是2022年先后，在生功效果上达到最优的模型总览：

uythlc5gpii.jpg

除了谷歌LaMDA和Muse之外，一切模型均为2022年公布。
其中，谷歌LaMDA虽然是2021年公布的，但在 2022年又爆火了一波；Muse则是2023年刚公布的，但论文宣称本人在图象生成机能上达到SOTA，因此也统计了进去。

n0oksjmyvhf.jpg

文本-图象生成
这方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。
DALL·E2是来自OpenAI的生成模型，在零样本学习上做出大冲破。与DALL·E同样，两点仍旧是CLIP模型，除了训练数据宏大，CLIP基于Transformer对图象块建模，并采取比较学习训练，终究帮忙DALL·E2取患了不错的生功效果。
下图是DALL·E2按照“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图象：

cls30cvrdws.jpg

Imagen来自谷歌，基于Transformer模型搭建，其中言语模型在纯文本数据集上进行了预训练。Imagen减少了言语模型参数量，发现成果比晋升分散模型参数量更好。
下图是Imagen按照“一只可恶的柯基住在寿司做的房子里”生成的图象：

o0slilakh1v.jpg

Stable Diffusion由慕尼黑大学的CompVis小组开发，基于潜伏分散模型打造，这个分散模型能够经过在潜表现空间中迭代去噪以生成图象，并将后果解码成残缺图象。
Muse由谷歌开发，基于Transformer模型取患了比分散模型更好的后果，只要900M参数，但在推理时间上比Stable Diffusion1.4版本快3倍，比Imagen-3B和Parti-3B快10倍。
下图是Muse与DALL·E2和Imagen的生功效果比较：

qjjta2fo3pa.jpg

文本-3D模型生成
次要代表作有Dreamfusion、Magic3D。（这里没有把OpenAI的Point·E统计进去，多是生功效果上没有达到SOTA）
DreamFusion由谷歌和UC伯克利开发，基于预训练文本-2D图象分散模型完成文本生成3D模型。采取相似NeRF的三维场景参数化定义映照，无需任何3D数据或修正分散模型，就可以完成文本生成3D图象的成果。
下图是DreamFusion生成“穿茄克的松鼠”3D成果：

4zmbaecdhvv.jpg

Magic3D由英伟达开发，旨在缩短DreamFusion图象生成时间、同时晋升生成品质。详细来讲，Magic3D能够在40分钟内创立高品质3D网格模型，比DreamFusion快2倍，同时完成了更高分辨率，并在人类评价中以61.7%的比率超过DreamFusion。

rvgvgxupve2.jpg

图象-文本模型生成
次要代表作有Flamingo、VisualGPT。
Flamingo是DeepMind推出的小样本学习模型，基于能够剖析视觉场景的视觉模型和履行根本推理的大言语模型打造，其中大言语模型基于文本数据集训练。输出带有图象或视频的问题后，模型会自动输入一段文本作为回答。

vy3gxalmq5c.jpg

VisualGPT是OpenAI制造的图象-文本模型，基于预训练GPT-2提出了一种新的留意力机制，来连接不同模态之间的语义差别，无需少量图象-文本数据训练，就可以晋升文本生功效率。

b5ddoehfil2.jpg

文本-视频模型生成
次要代表作有Phenaki、Soundify。
Phenaki由谷歌打造，基于新的编解码器架构C-ViViT将视频紧缩为离散嵌入，可以在时空两个维度上紧缩视频，在时间上放弃自回归的同时，还能自回归生成恣意长度的视频。

iat0hyuhwwj.jpg

Soundify是Runway开发的一个零碎，目的是将声响成果与视频进行婚配，即制造音效。详细包罗分类、同步和混合三个模块，首先模型经过对声响进行分类，将成果与视频婚配，随后将成果与每一个帧进行对比，拔出曾经对应的音效。
文本-音频模型生成
次要代表作有AudioLM、Jukebox、Whisper。
AudioLM由谷歌开发，将输出音频映照到一系列离散标志中，并将音频生成转换成言语建模工作，学会基于提醒词发生天然联贯的音色。在人类评价中，以为它是人类语音的占51.2%、与分解语音比率接近，阐明分解成果接近真人。
Jukebox由OpenAI开发的音乐模型，可生成带有唱词的音乐。经过分层VQ-VAE体系将音频紧缩到离散空间中，损失函数被设计为保存最少量信息，用于解决AI难以学习音频中的初级特点的问题。不外目前模型依然局限于英语。

e2cm3djkbcd.jpg

文本-文本模型生成
次要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。
ChatGPT由OpenAI生成，是一个对话生成AI，晓得回答问题、回绝不正当的问题申请并质疑不正确的问题条件，基于Transformer打造。它用人类打造的对话数据集、以及InstructGPT数据集的对话格局进行训练，另外也能够生成代码和进行简略数学运算。

b1kygtcrn5w.jpg

LaMDA基于Transformer打造，利用了其在文本中呈现的长程依赖瓜葛才能。其拥有1370亿参数，在1.56T的公共对话数据集和网页文本上进行训练，只要0.001%的训练数据被用于微调，这也是它成果好的缘故之一。

f5xumicvwuv.jpg

PEER由Meta AI打造，基于维基百科编纂历史进行训练，直到模型掌握残缺的写作流程。详细来讲，模型允许将写作工作合成成更多子工作，并允许人类随时干涉，疏导模型写出人类想要的作品。
Speech from Brain由Meta AI打造，用于帮忙无奈经过语音、打字或手势进行交流的人，经过比较学习训练wave2vec 2.0自监视模型，基于非侵入式脑机接口收回的脑电波进行解读，并解码大脑生成的内容，从而分解对应语音。
文本-代码模型生成
次要代表作有Codex、AlphaCode。
Codex是OpenAI打造的编程模型，基于GPT-3微调，能够基于文本需要生成代码。首先模型会将问题合成成更简略的编程问题，随后从现有代码（包孕库、API等）中找到对应的解决计划，基于GitHub数据进行训练。
AlphaCode由DeepMind打造，基于Transformer模型打造，经过采取GitHub中715.1GB的代码进行预训练，并从Codeforces中引入一个数据集进行微调，随后基于Codecontests数据集进行模型验证，并进一步改良了模型输入机能。

yiekasfvkwn.jpg

文本-迷信常识模型生成
次要代表作有Galactica、Minerva。
Galatica是Meta AI推出的十二00亿参数论文写作辅佐模型，又被称之为“写论文的Copilot模型”，目的是帮忙人们疾速总结并重新增论文中失掉新论断，在包罗生成文本、数学公式、代码、化学式和蛋白质序列等工作上取患了不错的成果，但是一度由于内容生成不成靠自愿下架。
Minerva由谷歌开发，目的是经过逐渐推了解决数学定量问题，能够被动生成相干公式、常数和波及数值计算的解决计划，也能生成LaTeX、MathJax等公式，而不需求借助计算器来失掉终究数学谜底。

p3h0alkr5rn.jpg

其余生成模型
次要包罗Alphatensor、GATO、PhysDiff等“其余生成模型”。
AlphaTensor由DeepMind开发，晓得本人改进矩阵乘法并晋升计算速度，不只改进了目前最优的4×4矩阵解法，也晋升了70多种不同大小矩阵的计算速度，基于“棋类AI”AlphaZero打造，其中棋盘代表要解决的乘法问题，下棋步骤代表解决问题的步骤。
GATO由DeepMind开发，基于强化学习教会大模型实现600多个不同的工作，包孕离散管制如Atari小游戏、推箱子游戏，以及延续管制如机器人、机械臂，还有NLP对话和视觉生成等，进一步减速了通用人工智能的进度。
PhysDiff是英伟达推出的人体静止生成分散模型，进一步解决了AI人体生成中沉没、脚滑或穿模等问题，教会AI模仿使用物理摹拟器生成的运转模型，并在大范围人体静止数据集上达到了最早进的成果。

132jffs0j43.jpg

作者引见
两位作者均来自西班牙卡米亚斯大主教大学（Universidad Pontificia Comillas）。

tj5xrk1eerh.jpg

一作Roberto Gozalo-Brizuela，目前是卡米亚斯大主教大学钻研助理（Investigador asociado），从事AI相干的名目钻研任务。

qkeqvlucifx.jpg

Eduardo C. Garrido-Merchán，卡米亚斯大主教大学助理传授，钻研标的目的是贝叶斯优化、机器学习、强化学习、生成式AI等。
你觉得哪一个畛域的生成式AI停顿最大？
论文地址：
http://arxiv.org/abs/2301.04655
— 完—
百度钻研院、阿里达摩院、量子位智库
年度十大科技讲演
总结2022，预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布， 点击下方图片便可跳转查看。
百度钻研院
阿里达摩院
量子位智库
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

2022生成模型停顿有多快？新论文清点9类生成模型代表作

发表回复

浏览过的版块

kitty919
关注TA

图文推荐

撞穿学校栅栏害死十一岁男孩的司机不必坐牢

全科医生正告花粉症时节正在好转

新西兰总理：出世在新西兰的新纳粹Thomas S

新州护士和助产士承受暂时加薪3%的前提

新纳粹份子如何利用“普通父母”的掩护在反

华人澳洲中文论坛

热图推荐

2022生成模型停顿有多快？新论文清点9类生成模型代表作

发表回复

浏览过的版块

kitty919 关注TA

图文推荐

撞穿学校栅栏害死十一岁男孩的司机不必坐牢

全科医生正告花粉症时节正在好转

新西兰总理：出世在新西兰的新纳粹Thomas S

新州护士和助产士承受暂时加薪3%的前提

新纳粹份子如何利用“普通父母”的掩护在反

kitty919
关注TA