华人澳洲中文论坛

热图推荐

    体验完百度的文心一言,我只能说它胆子够大。

    [复制链接]

    2023-3-17 07:20:48 57 0

    原标题:体验完百度的文心一言,我只能说它胆子够大。  
    3 月 16 日下昼 2 点,百度北京总部的公布厅内,李彦宏迈焦急促的步调走下台,和大家发布了比来一段时间备受关注的产品——文心一言。  
    只管这位科技巨头开创人,登过《 时期 》周刊封面,见过有数大局面,但公布会中,他的情态里都透露了些许紧张和局促。  


    我能够这么说,这是百度自创立以来关注度最高的公布会之一,一切人都在等着这款对标 ChatGPT 的产品。   
    有人满怀期待,但也有得多人,只是单纯想看它出丑。  


    会上,百度共在 5 个场景下,展现了文心一言的才能。  
    在文学创作方面,文心一言能够总结出《 三体 》内容,也能够在哲学角度续写《 三体 》。  
    在商业案牍创作这块,它能够按照公司的业务类型取名,生成 Slogan ,以及撰写几百字的旧事稿。  
         


    同时,它也能够做一些数理逻辑推算,好比鸡兔同笼,还能够判别出标题问题错了。  
    除此以外,文心一言能够给用户反馈图象,语音和视频。  
    好比它能够为 2023 世界智能交通大会创作一张海报,也能用四川话回答你的问题,乃至是生成视频。不外,想完成这些功用其实其实不难,百度做的或许就是把这几项办事融会了一下。  


    惋惜的是,公布会上一切素材都事前录好的,并不是现场实操,所以关于文心一言的实在才能,得多人都表现疑心。  
    好在,差评君搞到了内测账号,当初就看看,文心一言的才能究竟如何,它和搭载 GPT-4 的 New Bing 比,谁又更强?   
    咱们先测试了一些日常问题:如何做一份好吃的松鼠桂鱼?  
    这是文心一言的回答。  


    这是 New Bing 的回答。  


    虽然咱们没有时间测出谁的菜谱滋味更好,但能看出 百度文心一言的回答要优质一些。它根据规范的菜谱格局,分别给出了备料,步骤以及留意事项。  
    随后,咱们又问了一个经典的带有思惟圈套数学识题:一个田鸡掉到了一个 10 米深的井里,它天天晚上向上跳 3 米但会滑上去 2 米,请问他第几天能跳出井里?  
    文心一言的回答是 8 天,这是正确谜底。  
    而 New Bing 的回答是 5 天。  
    但 New Bing 一共有三种模式,在切换了准确模式后,New Bing 也给出了正确回答。  
    接着,咱们测试了大家对比关怀的敲代码才能,让它们帮助写了一个突变色按钮的 CSS 。  
    这是文心一言给的代码。  


    在实测后发现能够跑出来,但它把 “ 突变色 ” 了解成为了鼠标指下来后,色彩产生变动。  


    而 New Bing 给出的代码显示,它胜利了解了突变色。  


    文心一言是在试图实现用户的指令,而 New Bing 有点在炫技的滋味了。我要的是 CSS ,它给了一份残缺代码,还本人加了 “ 点击我 ” 的提醒。   
    起初,咱们又测试了取名, NewBing 给的是:麻晨光、麻晴雯、麻璇玑、麻云舒,似乎挺有新意。  


    但文心一言的倡议,说瞎话,我一眼就感觉好像在 “ 中国重生儿最热姓名 ” 里看过。。。  


    随后,我又提了一些节选自弱智吧的问题,测试下他们的 “ 智商 ” 。  
    好比:把加特林从冰箱拿出来算冷刀兵吗?  
    二者都讲授了甚么是冷刀兵后,给出了正确谜底:不是。  
    咱们又接着问了此外一个问题 “ 为何贝多芬不出新歌了? ”   
    New Bing 在简略引见后,回答由于曾经逝世 200 年了。  
    但文心一言似乎堕入了陷阱,剖析了一堆可能致使贝多芬不出歌的缘故。。。  


    固然,测试 AI 智商确定离不开数学题:请用 1 , 2 , 3 , 4 四个数字计算 24 点,每个数字只能用一次   
    关于这个问题,一开始,文心一言则似乎把本人的 CPU 干烧了。   


    起初咱们又测试了一下,虽然这次不烧了,但不知道它在回答甚么货色。  
    这是 New Bing 的回答。  
    接着关于中文互联网黑话的了解才能,咱们也测试了一下,但让人绝望的是,这方面文心一言表示还不如 New Bing 。  
    好比鸡你太美的梗,它并没给出一个满意的回覆。  


    而 New Bing 的回答,虽然也有过错,但起码比文心一言更接近谜底。  
    关于差评 925 的梗,文心一言可能由于训练语料的缘故,没给到咱们想要的谜底,而是放出了一个十分陈旧的谐音梗。  


    New Bing 则近乎完善解释了咱们 925 的梗。  
    在信息搜寻的问题上,咱们也进行了发问:现实汽车过来五个月销量,请逐月列出。  
    文心一言的谜底是:  


    New Bing 的回答是:  


    这两个谜底看上去,文心一言表示地十分拉胯,不只没有拉取正确数据,乃至还没给出合乎前提的月份。   
    最初,咱们测试了文心一言特有的画图才能。  
    咱们先让它生成一只刺猬在敲键盘的图片,这个成果算挺不错的。  


    但在让它生成为了一只小马拉大车的图片后,咱们显然是快乐早了,这 TM 是真马车啊。。。  


    OK ,以上就是给大家做的文心一言测试。  
    其实这段时间,互联网上大家对文心一言都带着点讥嘲的滋味,前两天,微信群里就流传着一个讥嘲心情包。  


    乃至还有聊天记载方式的段子,说一旦文心无奈正确回覆,要用员工顶上。( 显著是假的 )  


    公布会直播间里,质疑和讥嘲的弹幕也随处可见。  
    确实,比较 New Bing 来讲,文心一言表示是挺个别,不少方面乃至能够用 “ 拉 ” 来描述  
    百度本人也知道,文心一言还差了不少火候。  
    在测试中,它就像个不自信的小孩。不论谜底怎么样,只有你一否定,他就一边向你抵赖过错,一边包管本人会变得更好,给他点时间。  


    说句真实话,差评君感觉这次百度,能够说是勇气可嘉。  
    一方面,虽然大厂们都在说本人搞了相似的货色,然而在 ChatGPT 如日中天的这会儿,百度仍是敢顶住压力,公布了文心一言。  
    并且,作为一家搞搜寻引擎的,文心一言也极可能会推翻本人的中心业务。毕竟我们以前也和大家聊过,传统的搜寻引擎与其广告模式,极可能会被相似的产品干掉。  
    百度这波啊,多少是有股洪流勇进的滋味。   
    体验完这波产品,我感觉百度最应该做的,仍是尽快迭代,加紧时间把用户体验拉下去。否则就当初这个形态,别说是 GPT-4 和 New Bing 了,摆到 GPT-3.5 背后,仍是有待加强。  
    至于我们,也能够耐烦一点,给这个老成持重的不自信的小孩多一点时间  
    万一哪天,它忽然就把事干成为了呢?  
    撰文:刺猬编纂:面线 & 江江封面 :贫贱  
    图片、材料来源:  
    New Bing、文心一言

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题26

    帖子33

    积分147

    图文推荐