华人澳洲中文论坛

热图推荐

视觉版ChatGPT来了!排汇AI画画全技巧,MSRA全华人团队打造,微软16年轻将领衔

[复制链接]

2023-3-10 18:25:35 70 0

原标题:视觉版ChatGPT来了!排汇AI画画全技巧,MSRA全华人团队打造,微软16年轻将领衔  
明敏 发自 凹非寺   
量子位 | 大众号 QbitAI   
ChatGPT会画画了!  


问它:能生成一张猫片给我吗?  
立刻连文带图全有了。  


还能按照新的文字指令调剂图片:把猫换成狗。  


     同时也看得懂图、有了解才能。  
好比发一张图给它,而后问摩托是甚么色彩?它能回答出是黑色。  


又懂文字又会画图……有人就说:  
这不是终极meme图制作机?
    这不是终极meme图制作机?  


这样一来,Visual ChatGPT的任务流大略长这样:  


如果用户输出了一张图,模型会先将内容发送给提醒办理器,而后转换成言语给ChatGPT判别,当它发现这个问题不需求调用视觉模型,就会间接给出输入(第一个回答)。  
第二个问题时,ChatGPT剖析问题内容需求使用视觉模型,就会让视觉模型开始履行,而后始终迭代,直到ChatGPT判别再也不需求调用视觉模型时,才会输入后果。  
论文引见,Visual ChatGPT中包孕了22个不同的视觉模型。包罗Stable Diffusion、BLIP、pix2pix等。  
为了验证Visual ChatGPT的才能,他们还进行了少量零次实验(zero-shot experiments)。  
后果如结尾所示,Visual ChatGPT具备很强的图象了解才能。  
能够始终根据人的需要不停生成、修正图片。  


固然,钻研人员也提到了这项任务目前还存在一些 局限性。   
好比生成后果的品质,次要取决于视觉模型的机能。  
以及使用少量的提醒工程,会一定水平上影响生成后果的速度。并且还可能同时调用多个模型,也会影响实时性。  
最初,在输出图片的隐衷平安上,还需求做进一步降级维护。  
MSRA老将出马   
本项钻研效果来自 微软亚洲钻研院的团队。   
通信作者是 段楠。   


他是MSRA首席钻研员,天然言语计算组钻研经理,中国迷信技术大学兼职博导,天津大学兼职传授,CCF出色会员。  
次要从事天然言语处置、代码智能、多模态智能、机器推理等钻研。  
2006年参加MSRA,任职已超16年。  
第一作者 Chenfei Wu,一样是一名资深钻研人员了。   
据领英材料显示,他于20十二年参加微软,任职十一年,目前是一名软件工程师。  


论文地址:   
http://arxiv.org/abs/2303.04671  
—   
「中国AIGC产业峰会」启动  
邀您共襄盛举  
「中国AIGC产业峰会」行将在往年3月举行,峰会将约请AIGC产业相干畛域的专家学者,独特讨论生成新世界的过来、当初和将来。   
峰会上还将公布 《中国AIGC产业全景讲演暨AIGC 50》,片面平面描画我国以后AIGC产业的竞争力求谱。点击链接或下方图片查看大会详情:   
被ChatGPT带飞的AIGC如安在中国落地?量子位邀你独特参预中国AIGC产业峰会   
点这里 ?关注我,记得标星哦~   
一键三连「分享」、「点赞」和「在看」  
科技前沿停顿日日相见 ~

发表回复

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则

:
中级会员
:
论坛短信
:
未填写
:
未填写
:
未填写

主题33

帖子43

积分203

图文推荐

  • 67岁男子被控2项谋杀得逞(家暴)罪名

    上周,蓝山地域一户人家有两名女子被捅刀,警方起

  • 墨尔本北郊车祸涉事女子负有枪伤,左近有一

    9月1昼夜间,Epping 区产生枪击和车祸,警方正在