华人澳洲中文论坛

热图推荐

    视觉版ChatGPT来了!排汇AI画画全技巧,MSRA全华人团队打造,微软16年轻将领衔

    [复制链接]

    2023-3-10 18:25:35 19 0

    原标题:视觉版ChatGPT来了!排汇AI画画全技巧,MSRA全华人团队打造,微软16年轻将领衔  
    明敏 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    ChatGPT会画画了!  


    问它:能生成一张猫片给我吗?  
    立刻连文带图全有了。  


    还能按照新的文字指令调剂图片:把猫换成狗。  


         同时也看得懂图、有了解才能。  
    好比发一张图给它,而后问摩托是甚么色彩?它能回答出是黑色。  


    又懂文字又会画图……有人就说:  
    这不是终极meme图制作机?
        这不是终极meme图制作机?  


    这样一来,Visual ChatGPT的任务流大略长这样:  


    如果用户输出了一张图,模型会先将内容发送给提醒办理器,而后转换成言语给ChatGPT判别,当它发现这个问题不需求调用视觉模型,就会间接给出输入(第一个回答)。  
    第二个问题时,ChatGPT剖析问题内容需求使用视觉模型,就会让视觉模型开始履行,而后始终迭代,直到ChatGPT判别再也不需求调用视觉模型时,才会输入后果。  
    论文引见,Visual ChatGPT中包孕了22个不同的视觉模型。包罗Stable Diffusion、BLIP、pix2pix等。  
    为了验证Visual ChatGPT的才能,他们还进行了少量零次实验(zero-shot experiments)。  
    后果如结尾所示,Visual ChatGPT具备很强的图象了解才能。  
    能够始终根据人的需要不停生成、修正图片。  


    固然,钻研人员也提到了这项任务目前还存在一些 局限性。   
    好比生成后果的品质,次要取决于视觉模型的机能。  
    以及使用少量的提醒工程,会一定水平上影响生成后果的速度。并且还可能同时调用多个模型,也会影响实时性。  
    最初,在输出图片的隐衷平安上,还需求做进一步降级维护。  
    MSRA老将出马   
    本项钻研效果来自 微软亚洲钻研院的团队。   
    通信作者是 段楠。   


    他是MSRA首席钻研员,天然言语计算组钻研经理,中国迷信技术大学兼职博导,天津大学兼职传授,CCF出色会员。  
    次要从事天然言语处置、代码智能、多模态智能、机器推理等钻研。  
    2006年参加MSRA,任职已超16年。  
    第一作者 Chenfei Wu,一样是一名资深钻研人员了。   
    据领英材料显示,他于20十二年参加微软,任职十一年,目前是一名软件工程师。  


    论文地址:   
    http://arxiv.org/abs/2303.04671  
    —   
    「中国AIGC产业峰会」启动  
    邀您共襄盛举  
    「中国AIGC产业峰会」行将在往年3月举行,峰会将约请AIGC产业相干畛域的专家学者,独特讨论生成新世界的过来、当初和将来。   
    峰会上还将公布 《中国AIGC产业全景讲演暨AIGC 50》,片面平面描画我国以后AIGC产业的竞争力求谱。点击链接或下方图片查看大会详情:   
    被ChatGPT带飞的AIGC如安在中国落地?量子位邀你独特参预中国AIGC产业峰会   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题33

    帖子40

    积分191

    图文推荐