华人澳洲中文论坛

热图推荐

    文心一言的人工智能到达甚么程度?我用中学标题问题测了一遍(组图)

    [复制链接]

    2023-3-18 15:15:56 22 0

    大言语模型的开发和训练是极为难题的,而中文大言语模型的训练由于种种缘故,难题水平还要高一个等级。

    一方面,寰球互联网的信息中,中文信息所占的比例是相对于较小的。在学术论文、各行各业专业网站等成体系的常识里,中文所占的比例就更小了。从“喂养”人工智能的语料丰硕水平来比较,中文在起跑时就曾经后进了一截。
    另外一方面,中文实在世界的信息电子化水平还相对于对比低。不论是人也好,人工智能也好,想要经过互联网理解一个真正的中国都对比难题。
    举个例子:我写安康科普的时分想要查问最新的《中国居民膳食养分指南》,发现中公营养学会的官网并无提供查问工具,也没有提供指南的PDF版,只要纸质书的购买链接。与之对应的,某英文国度的居民膳食养分指南就可以很便捷地查问到电子版。
    也因此,一个基于互联网信息的人工智能想要帮忙咱们解答在中文世界里遇到的实在问题,天然就没那末容易。
    作为中文世界第一个交卷的人工智能大言语模型,百度的文心一言浮现出和ChatGPT的差距是意料之中的事件。
    我更关怀的是:文心一言究竟被训练到了怎么样的智能水平,间隔能够帮忙咱们解答理想中的问题究竟还有多远?

    电影《人工智能》海报带着这样的指标,我用自拟的一套中学程度的标题问题测试了一下文心一言,看看它解决语文、数学、英语、物理、化学、历史问题究竟能拿多少分。
    没想到,答得最佳的竟然是历史题。
    一、语文题我选了一个对比特别的成语【空穴来风】来测试文心一言。

    意料以外的惊喜,文心一言给出了一个满分的回答,把空穴来风原本的意思和被普遍误用之后的意思都列了出来,而且举了两个很好了解的案例。全部回答的构造也让人十分舒服。作为比较,我用百度搜寻了一样的问题,失掉的后果就远不如文心一言的谜底。

    在这个场景外面,文心一言起到了信息汇总和剖析的作用,这是人工智能比拟传统搜寻引擎的劣势所在。接着我又测试了写作文的才能,给的是经典标题问题《难忘的一天》,指定了一些人物和时间的细节。

    这个标题问题,文心一言给出了一个像模像样然而只能打50分的回答。一方面,它正确了解了《难忘的一天》含意,另外一方面,它并无了解我特地设置2月14日这一天的用心,也没有留意到客人公的春秋只要15岁其实不合适进酒吧。假如我想用百度搜寻来解决这个问题,就只能这么搜寻,而后再用范文拼凑修正一篇。没有原创性,但不会犯15岁进酒吧这样的过错。

    二、数学题
    我先是问了一个我感觉关于人工智能来讲应该手到擒来的问题:

    我给定的前提十分明晰,质数的概念也没有歧义,但文心一言在这个问题上狠狠栽了跟头,谜底既不正确也不残缺,在我提示之后依然“拒不悔改”。反而是百度搜寻在这个问题上的表示更胜一筹:

    但这并非由于百度搜寻更厉害,而是由于有人类手动整顿过这个相应的质数表,凭借生物的大脑和双手做过相干的任务,这能力被检索到。而且,终究失掉谜底也需求我对这些搜寻后果做进一步的选择和加工。接着我测试了一个难度不高但言语表述繁杂一些的数学题:

    很惋惜,文心一言又给出了过错的谜底,并且错得很离谱。
    假如我想用百度搜寻来解决这个,虽然百度搜寻不克不及间接回答,但它会提供由人类手动开发的计算工具:

    作为人类的一员,从这个场景也能模糊失掉一些刺激,虽然机器的才能在飞速生长,但说到解决实际的问题,最终仍是给人类留下了一些空间。
    三、英语题
    我先是测试了一个对比惯例的句子翻译题:

    这个回答算是合格但其实不优秀,我会给文心一言的表示打70分。
    比起那些独自的翻译软件来讲,这个得分其实不凸起,但人工智能的劣势在于它能够间接了解人类的天然言语,它知道我要翻译的是后半部份,而不是把我输出的一切文字都翻译成英文。
    关于人类来讲,这是比“翻译器”更为敌对的一种运用场景。
    四、物理题
    测试物理题的时分,我没有间接讯问物理知识,而是减少了一点了解的难度,发明了一个实在世界其实不存在的场景。

    假如人工智能要精确回答这个问题,它需求做两步任务,一是找到重力常数的计算办法,二是找到我没有写出来但互联网上有现成谜底的那些参数,好比地球和月球的品质、半径。从上述后果能够看出来,文心一言只实现了第一步任务,找到了计算办法,但它还不会本人去找到相应参数来算出后果。
    按我的了解,在将来很长一段时间内,人工智能可以给咱们的帮忙都将会局限在相似的程度,就是能帮忙咱们解决一部份的问题,进步一些效力,但无奈给出精确牢靠的终究后果。
    机器还在生长,人类还有时间,问题就在于留给人类的时间还有多少……
    五、化学题
    这里我问了一个需求汇总的,带有一定凋谢性的问题,想知道人工智能会回答到甚么水平。

    从文心一言反馈的后果来看,这个谜底虽然不是百分百正确,但仍是很不错的。
    更首要的是,能够显著地看出来,文心一言回答这个问题不是从繁多来源搬运谜底,而是从不同来源获得信息后综合失掉的谜底。回答问题的构造也对人类十分敌对,给出了相应化学式,还增补了首要的信息。
    六、历史题
    与天然学科不同,历史学科的问题常常带有一定的客观性,有时并无独一精确的谜底,这样的问题可以测试人工智能对信息的选择偏好。

    这个回答也是对比让我满意的,先是简洁地给出了确定的谜底,接着又增补了横向对比的信息和面前的缘故。前面两部份我没问,但人工智能猜我会想知道,也一并把信息给了出来。
    这是文心一言更像人而不是机器的特质,也是言语大模型最难的部份。从这个角度来讲,文心一言还不敷好用,但曾经值得期待了。
    从以上六个学科的问题来看,你会给文心一言的综合表示打多少分呢?

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题2

    帖子25

    积分100

    图文推荐