华人澳洲中文论坛

热图推荐

    独家测试:咱们采集了几十个问题,而「文心一言」是这么回答的…… | Chat AI

    [复制链接]

    2023-3-17 15:38:03 53 0

    原标题:独家测试:咱们采集了几十个问题,而「文心一言」是这么回答的…… | Chat AI  
    跟着ChatGPT登台表态,从科技从业者,到投资圈,再到普罗公众,愈来愈多人再次关注到了“过气”的AI,及其所能带来的价值和改动。
      商业界也确实源源不停奉献着更多新的素材:OpenAI、微软、Google、Meta、百度、字节、腾讯等大厂,以及泛滥守业公司,都开始从本人长于的角度切入竞争……
      为了帮忙读者可以继续关注由ChatGPT诱发的科技圈海啸,36氪推出「Chat AI」栏目,从中立的第三方视角,探究、剖析每一个次热点面前的商业观念。
        跟着ChatGPT登台表态,从科技从业者,到投资圈,再到普罗公众,愈来愈多人再次关注到了“过气”的AI,及其所能带来的价值和改动。   
    商业界也确实源源不停奉献着更多新的素材:OpenAI、微软、Google、Meta、百度、字节、腾讯等大厂,以及泛滥守业公司,都开始从本人长于的角度切入竞争……   
    为了帮忙读者可以继续关注由ChatGPT诱发的科技圈海啸,36氪推出「Chat AI」栏目,从中立的第三方视角,探究、剖析每一个次热点面前的商业观念。  
    文|沈筱、王与桐  
    编纂 | 石亚琼  
    3月16号,百度文心一言上线,然而仅仅凋谢请求。据悉,截至公布会完结当晚21点,曾经有6.5万家企业请求百度文心一言API调用测试。目前,集体用户也能够经过拜候官网参预内测排队。  
    公布会咱们曾经有文章报导过,在此不做赘述。总的来讲,透过这场公布会,百度表白了下列中心观念和内容:抵赖差距、论述才能、瞻望将来。  
    而目前大家更感兴致的,也许是文心一言所谓的智能对话才能,究竟怎样?  
    36氪拿到了内测权限,在敌人圈征集了一些问题,并将某些问题与ChatGPT的回答进行比较(之所以如斯,是由于百度文心一言始终对标ChatGPT,也被人讥嘲为“ChinaPPT”)。  
    先说论断:  
    1、百度文心一言对凋谢式问题回答更好,关于工作和逻辑问题回答稍弱。  
    2、百度文心一言在第一次给出谜底时不敷问题,容易输入奇怪谜底,品质不敷一致。  
    3、视频和语音生胜利能临时无奈体验,百度的说法是,本钱过高。  
    4、单轮对话成果优于延续对话  
    5、比预期要好。  
    文心一言和ChatGPT(GPT-4)的互评   
    首先,让「文心一言」和「ChatGPT(GPT-4)」互评。  
         单方的回答标的目的都很“民间”,先陈说事实,再列出优点和缺陷,中规中矩。所谓知己知彼,百战百胜。目前来看,AI大模型自身似乎还不克不及做到这一点。然而,对OpenAI、Google、百度等企业的决策者,以及开发AI大模型的人来讲,应该不是难事。  


    ChatGPT(GPT-4)对百度文心一言的评估  
    这里需求做个小条记:GPT-4训练数据截止日期是2021年9月,而此前发布的ChatGPT数据库的最初更新时间是2021年的十二月31日。  


    百度文心一言对ChatGPT的评估  


    第一次回答的小插曲  
    小插曲是,文心一言第一次回答这个问题,泛起了一些奇怪的对话,然而从新生成之后谜底就较为正常了。  
    文学创作   
    在公布会上,百度效仿网友对ChatGPT提出的续写《三体》要求,展现了文心一言对续写《三体》的倡议。有网友称,ChatGPT的回答更乏味。然而,细心的观众可能以及留意到,文心一言案例中点明了要“从哲学的角度续写”,而非间接发问续写角度。  
    为了便利读者进行比较,笔者也尝试让ChatGPT(GPT-4)回答了一样的问题。  


    文心一言:从哲学角度续写《三体》,来自于文心一言公布会  


    ChatGPT(GPT-4):从哲学角度续写《三体》  


    文心一言:从哲学角度续写《三体》,来自作者发问  
    看多了故事创作的例子,想必也会有读者对散文感兴致。  
    从生成内容来看,文心一言似乎更能勾起笔者的思乡之情,尤为是这句“也许,我需求的并非物资上的财务和名利,而是一份真实的情感和归属”。  
    而笔者在尝试用ChatGPT(GPT-4)生成散文时,频繁泛起网络过错提醒,致使文本生成不克不及顺利进行。这多是办事器的问题。不外,从内容生成速度下去讲,GPT-4的确不如GPT-3.5,在得多状况下,也不如文心一言。只管如斯,仍然能够看出,ChatGPT是长于排比的。  


    文心一言散文创作(字数统计:666个字)  


    ChatGPT(GPT-4):屡次未能实现的散文创作  
    诗词创作的例子,这里就再也不展现了。但值得一提的是,利用文心一言生成散文后,笔者持续要求其将上述散文改写成一首诗。文心一言生成为了一首古代诗,其中两段是这么写的:  
    在夜晚的沉寂中
      我听到了一声叹气
      那是我思乡的呼叫
      像一抹和顺的月光
      把我的心带回家乡
      家乡的山川是如斯标致
      那些相熟的风景让我陶醉
      小溪流淌,树木婆娑
      恍如时光倒流,回到了过来
        在夜晚的沉寂中  
    我听到了一声叹气  
    那是我思乡的呼叫  
    像一抹和顺的月光  
    把我的心带回家乡  
    家乡的山川是如斯标致  
    那些相熟的风景让我陶醉  
    小溪流淌,树木婆娑  
    恍如时光倒流,回到了过来  
    针对鸡兔同笼问题,咱们选择了与文心一言展现案例不同的发问形式。遗憾的是,没能失掉满意谜底——文心一言以为标题问题犯错了(固然没有犯错,有正确回答)。  
    为了验证是不是由于表述不敷具体才致使这样的后果,笔者尝试了其余几种表述办法,其回答依然如斯。而依着不撞南墙不回头的性情,笔者最初选择间接告知文心一言:“下面的标题问题是正确的,从新回答”。此时,文心一言终于能给出部份正确的解题思绪——列出了正确的方程式,但谜底仍旧过错。  
    需求指出的是,从文心一言第二次回答描画的已知信息来看,它好像真的没有精确get到标题问题的内容。难不可真是笔者的表述问题?但愿有兴致、能拿到内测资历的读者可以帮我解决这个问题。  
    一样的,ChatGPT(GPT-3.5)也未能正确回答。其第一遍回答只管展现理解题思绪,然而方程式列错了,回答过错。第二遍尝试虽然方程式列对了,然而谜底却错了。  
    相较之下,ChatGPT(GPT-4)给出了满意谜底——鸡有80只,兔子有20只。但不能不说,解题步骤显得有些简短了(彻底没须要那末繁杂),以致于无奈在电脑网页上获取残缺截图。  
    这么来看,GPT-4的数理逻辑推算才能的确是晋升了。  
    文心一言对“鸡兔同笼”问题的第一遍回答  


    文心一言对“鸡兔同笼”问题的第二遍回答  


    ChatGPT(GPT-3.5)对“鸡兔同笼”问题的回答  


    ChatGPT(GPT-4)对“鸡兔同笼”问题的回答  
    图象生成&中文了解   
    为了测试百度文心一言的图象生成才能,咱们选择了“难题”模式——给出一些诗句,要求它产出高清图片。  
    从图象生成才能来看,对一些易于了解的,诗句自身对画面有丰硕形容的诗句,文心一言能够呈现出对比好的成果。以“日出江花红胜火”为例,文心一言给出的画面精确囊括了日出、江水、花、红等画面元素,乃至还在江边生成为了一座塔,很有江熏风味。  
    然而,对需求更多配景信息,以及更为凸起意境、需求想象力的诗句,文心一言尚且不克不及拿捏。  
    例如,笔者尝试让它按照《蜀道难》里对剑门关的形容——“剑阁峥嵘而崔嵬”这样的诗句生成景色图,文心一言给到的后果是三国时代装扮的人物肖像。值得一提的是,好歹仍是可以输入对历史时期配景的了解。  
    而针对“大漠孤烟直”,文心一言虽然也生成为了“大漠”、“孤烟”的画面元素,然而,很显然没能表示出诗句描画的壮阔局面。而针对这一局面,文心一言是可以精确输入文字描画的——“在浩大无际的沙漠中,烽烟台燃起的狼烟在天空中笔挺地升起”。  
    除了图象生成,笔者还比较了文心一言和ChatGPT(GPT-4)对诗句中描画画面的了解才能。ChatGPT(GPT-4)的谜底稍显简短,但也不错。  


    文心一言图象生成:日出江花红胜火  
    文心一言对“日出江花红胜火”的了解  


    ChatGPT(GPT-4)对“日出江花红胜火”的了解  


    文心一言图象生成:大漠孤烟直  
    商业案牍创作   
    最初,笔者对文心一言和ChatGPT(GPT-4)提出了“以‘千里之行始于足下’为主题,为百度文心一言公布会创作一篇发言稿”的要求。  
    比拟之下,ChatGPT(GPT-4)在“千里之行始于足下”这句话上下足了工夫,但似乎没有聊太多和文心一言无关的事件。而文心一言的回答则更像是一篇合格的公布会发言稿。毕竟,要打出来的招牌是本人的。  


    文心一言:公布会发言稿生成  


    ChatGPT(GPT-4):公布会发言稿生成  
    随机测试   
    咱们征集了一些问题,想要让百度文心一言回答。这些问题有的是凋谢性问题,有的是逻辑性问题,而文心一言的回答品质其实不够一致。有的问题是在一本正派胡言乱语,固然这个景象ChatGPT同样存在。  


    提纲看起来品质OK  


    A轮融资和B轮融资,与天使轮融资是不是是一个概念?  


    很显然,文心一言没搞明确36氪和其余证券公司的瓜葛  


    百度的数据看来也没到2023  


    然而却十分笃定以为狂飙和飞奔人生是同一个  


    可写代码  


    回答不错  


    还得图象才能  


    面对无厘头问题也能够回答  


    回答不错  
    面对无厘头问题,也能对发问者的安康状况做出反馈  


    似乎对一些中文谚语不敷了解  


    然而正月剪头的风俗似乎ChatGPT知道  
    在文心一言生成的散文中,有这样一句话:“在这个塌实的世界里,思乡之情变得愈来愈珍贵,它犹如一盏明灯,指引着我前行的标的目的。”  
    大东洋对岸,ChatGPT曾经催生了生成式AI的淘金热,资本开始疯狂搜索畛域内有后劲的守业公司。而有了OpenAI为联盟的微软,也曾经和“单打独斗”的谷歌造成扭打之势。这让人不禁得感慨,新一轮AI开展热潮曾经开始,再不跟上可能就真的后进了。  
    有人感慨OpenAI独孤求败。事实的确如斯,其3月15日公布的GPT-4又一次将各路竞争对手甩开一截。就在明天早晨,GPT-4曾经登陆微软全家桶。  
    但咱们终该抱有决心,有了benchmark,就像是迟缓前行的巨轮在大海上中飞行有了灯塔,即使走得慢,但知路途在何方。  
    在这个塌实的世界里,专注且笃定变得愈来愈珍贵。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题23

    帖子30

    积分138

    图文推荐