华人澳洲中文论坛

热图推荐

    教ChatGPT学会看图的办法来了

    [复制链接]

    2023-2-5 18:14:11 18 0

    原标题:教ChatGPT学会看图的办法来了  
    羿阁 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    2022年盛行“ 文生图”模型,那2023年盛行甚么?   
    机器学习工程师Daniel Bourke的谜底是:反过去!  
    这不,一个最新公布的“ 图生文”模型在网上爆火,其优秀的成果诱发泛滥网友纷纭转发、点赞。   


    不只是根底的“看图谈话”功用, 写情诗讲授剧情给图片中对象设计对话等等,这个AI都拿捏得稳稳的!   


    乃至图片中的一些列文虎克的细节也能“看”得清分明楚。  
    当被问到如何能力从图片中倒着的房子里分开,AI的回答是:正面不是有滑梯嘛!  


    展开全文    这只新AI名为 BLIP-2(Bootstrapping Language-Image Pre-training 2),目前代码已开源。   
    最首要的是,和之前的钻研不同,BLIP-2使用的是一种通用的预训练框架,因此能够 恣意对接本人的言语模型。   
    有网友曾经在畅想把接口换成 ChatGPT后的强强组合了。   
    作者之一Steven Hoi更是放话:BLIP-2将来就是“ 多模态版ChatGPT”。   


    那末,BLIP-2神奇之处还有哪些?一同往下看。  
    了解才能一流   
    BLIP-2的弄法能够说十分多样了。  
    只需提供一张图片,你就能与它对话,让它看图讲故事、推理、生成共性化文本等各种要求都能知足。  
    中国的长城是公元前221年秦始皇为了维护帝都不受南方侵犯而建造的。
        中国的长城是公元前221年秦始皇为了维护帝都不受南方侵犯而建造的。  


    给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的终局是be:泰坦尼克号漂浮,男主淹死。  


    在对人类情态的拿捏上,BLIP-2一样驾驭得十分精确。  
    被问到这张图片中的男人是甚么心情,他为何这样时,BLIP-2的回答是:他惧怕那只鸡,由于它正朝他飞来。  


    更神奇的是,在许多凋谢性问题上,BLIP-2的表示也很杰出。  
    让它按照上面的图片写一句浪漫的话:  


    它的回答是这样的:恋情就像日落,很难预见它的到来,但当它产生时,它是如斯的标致。  


    这不光了解才能满分,文学造诣也至关强啊!  


    让它给图片中的两只植物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:  
    猫: 嘿,狗狗,我能骑在你背上吗?
      狗: 固然,为何不呢?
      猫: 我曾经厌倦了在雪地里行走。
        猫: 嘿,狗狗,我能骑在你背上吗?  
    狗: 固然,为何不呢?  
    猫: 我曾经厌倦了在雪地里行走。  


    那末,如斯弱小的了解才能面前,BLIP-2到底是怎么做到的?  
    多项视觉言语工作上完成新SOTA   
    斟酌到大范围模型的端到端训练本钱愈来愈高,BLIP-2使用的是一种通用且高效的预训练战略:  
    从现成的解冻预训练图象编码器和解冻的大型言语模型中疏导视觉言语预训练。  
    这也象征着,每集体均可以选择本人想用的模型接入使用。  
    而为了补救了模态之间的差距,钻研者提出了一个轻量级的查问Transformer。  
    该Transformer分两个阶段进行预训练:  
    第一阶段从解冻图象编码器疏导视觉言语表现学习,第二阶段将视觉从解冻的言语模型疏导到言语生成学习。  


    为了测试BLIP-2的机能,钻研人员分别从零样本图象-文本生成、视觉问答、图象-文本检索、图象字幕工作上对其进行了评价。  
    终究后果显示,BLIP-2在多项视觉言语工作上都完成了SOTA。  


    其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还增加了54倍。  
    并且不言而喻的是,更强的图象编码器或更强的言语模型都会发生更好的机能。  


    值得一提的是,钻研者在论文最初也提到,BLIP-2还存在一个缺乏,那就是不足上下文学习才能:  
    每个样本只包孕一个图象-文本对,目前还无奈学习单个序列中多个图象-文本对之间的相干性。  
    钻研团队   
    BLIP-2的钻研团队来自Salesforce Research。  
    第一作者为Junnan Li,他也是一年前推出的BLIP的一作。  
    目前是Salesforce亚洲钻研院初级钻研迷信家。本科结业于香港大学,博士结业于新加坡国立大学。  
    钻研畛域很普遍,包罗自我监视学习、半监视学习、弱监视学习、视觉-言语。  
    下列是BLIP-2的论文链接和GitHub链接,感兴致的小火伴们能够自取~  
    论文链接:   
    http://arxiv.org/pdf/2301.十二597.pdf  
    GitHub链接:   
    http://github.com/salesforce/LAVIS/tree/main/projects/blip2  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    PS. 加好友请务必备注您的姓名-公司-职位噢 ~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题39

    帖子47

    积分221

    图文推荐