华人澳洲中文论坛

热图推荐

    ChatGPT 经过了顶尖大学的考试,比反 AI 更该做的是改考题

    [复制链接]

    2023-2-2 21:00:29 43 0



    当法学院先生在尝新玩 ChatGPT 的时分,应该没想过它回身就成为了跟本人一同加入同一场考试的「同窗」。
    在刚过来的 1 月,明尼苏达大学法学院的 Jon Choi 传授和宾夕法尼亚大学沃顿商学院的 Christian Terwiesch 传授分别让 ChatGPT「做」了次本人课程的期末试题。
    后果 ChatGPT 还真都经过了!


    这象征着让 ChatGPT 再进化一会儿,当前咱们就不需求人类律师和办理者了吗?
    仍是,这是一声敲响的警钟,提示教育者们不要再把人类教得像 AI 同样了?
    及格的面前:教师「放水」,全班垫底


    在考过的两个专业里,ChatGPT 在法学院考的成就比在商学院的差些,前者均匀得分 C+,后者则能达到 B- 到 B 的成就。
    详细来讲,ChatGPT 在沃顿实现的是 MBA(工商办理学硕士)「经营办理」科目的试题,每道题都需写出「推演进程」。
    测试时,Terwiesch 传授把考试的原题输出到 ChatGPT 中,并对 ChatGPT 生成的回答进行打分。
    总的来讲,ChatGPT 在回答根底剖析题时表示都很不错;数学则不太行,可能忽然就会算错一个小学难度的算数;而相对于繁杂的剖析题,ChatGPT 就根本没辙。
    例如,第一题考的就是对「办理瓶颈」概念的了解,并简略对比「出产进程」中哪一个步骤效力最低,找出「瓶颈」。




    这题回答传授间接打了 A+。
    但是,当考题里的「出产进程」变得更繁杂,需求处置的原料不仅一种,波及的装备有差别也有堆叠时,ChatGPT 就算不出「办理瓶颈」了。


    关于这题,ChatGPT 的推演进程虽然是错的,但却「完善绕过」过错推论,撞中了谜底。
    在算「接纳站(receiving station)」效力时,ChatGPT 得出的后果是「300 桶/小时」。
    这个数虽然是错的,但以这个数字来讲,它确实也是剖析过程当中算出来效力最低的一环。
    谁想到,ChatGPT 却「本人都不信本人」,没把这一环选为「瓶颈」,而是选了算出来效力为「600 桶/小时」的「枯燥机(dryer)」环节为「瓶颈」 —— 选了个正确谜底。
    不外,虽然 Terwiesch 传授最初给 ChatGPT 的分数有 B 级,但他也有点「放水」了。
    当 ChatGPT 回答泛起过错时,Terwiesch 会向ChatGPT 提供针对性的提示,而后再让它输入一次回答,并以这个「优化」后果来评分。


    至于法学院的考试,ChatGPT 做了宪法、员工福利法、税法和侵权法这四个课程的期末试题。
    主导这次测试的 Jon Choi 传授表现,在「盲改」的状况下,ChatGPT 这四科都及格了,但成就根本都是全班垫底。
    虽然 ChatGPT 的简答题比选择题做得更好,但简答题的回答品质却极其不不乱 —— 有时分答得可能比个别先生好(大可能是法律条文默写和案例复述),但是一错起来(一般为要求先生器具体实践剖析案例的题),分数通常都「错出新低」:
    在面对法学院考试的最根本问题时,ChatGPT 都表示蹩脚,例如辨认潜伏法律问题和在案例中深度剖析和运用法律条文。ChatGPT 那「不求了解,只会背书」的答题格调也能低分飘过专业考试,多少显示考题仍是太依赖「融会贯通」了,ChatGPT 的表示显然也没法代替律师和办理者。
    但是,假如人类先生也大略这类程度,一样经过了考试,乃至结业后去执业了,那是否更有问题?
    批判多年的「背书就行」考试,ChatGPT 能逼出改动吗?


    在 ChatGPT 惊艳退场前,卡内基梅隆大学传授 Danny Oppenheimer 就已提出质疑:在 Google 搜寻时期,为何大学考试还只着重考先生对事实的重述?
    Oppenheimer 指出,虽然有的教育者会辩驳说,他们在课堂上讲授事实类信息时,也会剖析这些信息的意义、论证和运用,但一到考卷上,当即就变回「背书就行」:
    得多课程都是基于一个条件来构建的,那就是先生会经过视察教师言传身教式地去对事实进行剖析、拓展和运用,先生自天然然就可以开展出这一套技巧 —— 这是一个十分值得疑心的假定。因此,Oppenheimer 倡议课程从设置上就要间接反应出教育者但愿先生终究学到的技巧,结合新技术也很须要,如「在电脑辅佐下做文学赏析」「如何和与你意见分歧的人文化地沟通」。
    考试能够结合事实性信息,但应着重于先生的剖析和运用才能。
    此外,让先生去「预演」将来会遇到的场景也是练习技能的间接形式,譬如让钻研气象改动的先生来为公众策展一场气象相干展览。
    当初来到 ChatGPT 时期,这个改动天然是显得更迫切,由于它的效力比搜寻引擎更高,同时也更具蛊惑性。
    ChatGPT 除了给先生省下翻看一页页搜寻后果的时间外,还以够用的言语构造才能生成流利的文段,即使事实精确度十分可疑。


    乏味的是,ChatGPT 也像一面镜子。
    一方面,它让人想起应试教育中的作文和简答题总像是无休止的「模仿」,规范范式下的填充,就跟 ChatGPT 同样。
    另外一方面,靠「吃」大数据和由人类实在反馈「调教/校」生长而来,ChatGPT「一本正派瞎扯」的内容也特别像咱们糊口里会遇到的日常。
    以致于沃顿商学院的 Terwiesch 传授都超惊喜,感觉 ChatGPT 能给将来的办理者们带来极佳的学习素材 ——
    商业世界里原本就充溢了一本正派的一派胡言,就跟 ChatGPT 说的话同样,商学院先生正好能用它来做辨别练习!
    你我都知,需求学下这个技巧的远不止商学院先生。
    但是,美国初等教育界从搜寻引擎盛行就开始有变革的探讨,但到了明天依然提高无限,ChatGPT 的降生能逼它跑得快些吗?咱们也只能持续视察。
    人类的,类人的


    我总以为,每当人类尝试「再造」一些货色的时分,总会袒露出咱们对事物的认知限度,同时也帮忙咱们去理解自我。
    尝试在太空中「再造」食品时,钻研人员发现食品真不克不及只被降至「养分够」。
    要放弃太空人们身心安康,色香味口感声响无一不影响感知,环境要讲求,一同吃饭的人也十分首要。
    当咱们具有一个能「流利说人话」的 ChatGPT 时,人们也开始发现人类言语不仅对于「文字」。
    一个只由言语素材训练的零碎永久都不会接近人类智能,即使它从当初就开始训练,训练到宇宙覆灭都不行。钻研 AI 哲学的 Jacob Browning 和图灵奖得主 Yann Le Cun 在联结撰写的文章中指出。
    他们以为,文字作为一种高度稀释的笼统符号,人类能了解的根底在于咱们具有丰硕的非言语共鸣和集体体验。这也象征着文字总可能会带来误读和歧义。
    言语是咱们沟通的工具,但教育者对先生的了解和评价,不该只限于卷子上。
    和先进的大型言语模型打交道,浮现出咱们单从言语中能失掉的货色是如许无限。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题40

    帖子49

    积分222

    图文推荐