ChatGPT 经过了顶尖大学的考试，比反 AI 更该做的是改考题

月落乌啼

当法学院先生在尝新玩 ChatGPT 的时分，应该没想过它回身就成为了跟本人一同加入同一场考试的「同窗」。
在刚过来的 1 月，明尼苏达大学法学院的 Jon Choi 传授和宾夕法尼亚大学沃顿商学院的 Christian Terwiesch 传授分别让 ChatGPT「做」了次本人课程的期末试题。
后果 ChatGPT 还真都经过了！

这象征着让 ChatGPT 再进化一会儿，当前咱们就不需求人类律师和办理者了吗？
仍是，这是一声敲响的警钟，提示教育者们不要再把人类教得像 AI 同样了？
及格的面前：教师「放水」，全班垫底

在考过的两个专业里，ChatGPT 在法学院考的成就比在商学院的差些，前者均匀得分 C+，后者则能达到 B- 到 B 的成就。
详细来讲，ChatGPT 在沃顿实现的是 MBA（工商办理学硕士）「经营办理」科目的试题，每道题都需写出「推演进程」。
测试时，Terwiesch 传授把考试的原题输出到 ChatGPT 中，并对 ChatGPT 生成的回答进行打分。
总的来讲，ChatGPT 在回答根底剖析题时表示都很不错；数学则不太行，可能忽然就会算错一个小学难度的算数；而相对于繁杂的剖析题，ChatGPT 就根本没辙。
例如，第一题考的就是对「办理瓶颈」概念的了解，并简略对比「出产进程」中哪一个步骤效力最低，找出「瓶颈」。

这题回答传授间接打了 A+。
但是，当考题里的「出产进程」变得更繁杂，需求处置的原料不仅一种，波及的装备有差别也有堆叠时，ChatGPT 就算不出「办理瓶颈」了。

关于这题，ChatGPT 的推演进程虽然是错的，但却「完善绕过」过错推论，撞中了谜底。
在算「接纳站（receiving station）」效力时，ChatGPT 得出的后果是「300 桶/小时」。
这个数虽然是错的，但以这个数字来讲，它确实也是剖析过程当中算出来效力最低的一环。
谁想到，ChatGPT 却「本人都不信本人」，没把这一环选为「瓶颈」，而是选了算出来效力为「600 桶/小时」的「枯燥机（dryer）」环节为「瓶颈」 —— 选了个正确谜底。
不外，虽然 Terwiesch 传授最初给 ChatGPT 的分数有 B 级，但他也有点「放水」了。
当 ChatGPT 回答泛起过错时，Terwiesch 会向ChatGPT 提供针对性的提示，而后再让它输入一次回答，并以这个「优化」后果来评分。

至于法学院的考试，ChatGPT 做了宪法、员工福利法、税法和侵权法这四个课程的期末试题。
主导这次测试的 Jon Choi 传授表现，在「盲改」的状况下，ChatGPT 这四科都及格了，但成就根本都是全班垫底。
虽然 ChatGPT 的简答题比选择题做得更好，但简答题的回答品质却极其不不乱 —— 有时分答得可能比个别先生好（大可能是法律条文默写和案例复述），但是一错起来（一般为要求先生器具体实践剖析案例的题），分数通常都「错出新低」：
在面对法学院考试的最根本问题时，ChatGPT 都表示蹩脚，例如辨认潜伏法律问题和在案例中深度剖析和运用法律条文。ChatGPT 那「不求了解，只会背书」的答题格调也能低分飘过专业考试，多少显示考题仍是太依赖「融会贯通」了，ChatGPT 的表示显然也没法代替律师和办理者。
但是，假如人类先生也大略这类程度，一样经过了考试，乃至结业后去执业了，那是否更有问题？
批判多年的「背书就行」考试，ChatGPT 能逼出改动吗？

在 ChatGPT 惊艳退场前，卡内基梅隆大学传授 Danny Oppenheimer 就已提出质疑：在 Google 搜寻时期，为何大学考试还只着重考先生对事实的重述？
Oppenheimer 指出，虽然有的教育者会辩驳说，他们在课堂上讲授事实类信息时，也会剖析这些信息的意义、论证和运用，但一到考卷上，当即就变回「背书就行」：
得多课程都是基于一个条件来构建的，那就是先生会经过视察教师言传身教式地去对事实进行剖析、拓展和运用，先生自天然然就可以开展出这一套技巧 —— 这是一个十分值得疑心的假定。因此，Oppenheimer 倡议课程从设置上就要间接反应出教育者但愿先生终究学到的技巧，结合新技术也很须要，如「在电脑辅佐下做文学赏析」「如何和与你意见分歧的人文化地沟通」。
考试能够结合事实性信息，但应着重于先生的剖析和运用才能。
此外，让先生去「预演」将来会遇到的场景也是练习技能的间接形式，譬如让钻研气象改动的先生来为公众策展一场气象相干展览。
当初来到 ChatGPT 时期，这个改动天然是显得更迫切，由于它的效力比搜寻引擎更高，同时也更具蛊惑性。
ChatGPT 除了给先生省下翻看一页页搜寻后果的时间外，还以够用的言语构造才能生成流利的文段，即使事实精确度十分可疑。

乏味的是，ChatGPT 也像一面镜子。
一方面，它让人想起应试教育中的作文和简答题总像是无休止的「模仿」，规范范式下的填充，就跟 ChatGPT 同样。
另外一方面，靠「吃」大数据和由人类实在反馈「调教/校」生长而来，ChatGPT「一本正派瞎扯」的内容也特别像咱们糊口里会遇到的日常。
以致于沃顿商学院的 Terwiesch 传授都超惊喜，感觉 ChatGPT 能给将来的办理者们带来极佳的学习素材 ——
商业世界里原本就充溢了一本正派的一派胡言，就跟 ChatGPT 说的话同样，商学院先生正好能用它来做辨别练习！
你我都知，需求学下这个技巧的远不止商学院先生。
但是，美国初等教育界从搜寻引擎盛行就开始有变革的探讨，但到了明天依然提高无限，ChatGPT 的降生能逼它跑得快些吗？咱们也只能持续视察。
人类的，类人的

我总以为，每当人类尝试「再造」一些货色的时分，总会袒露出咱们对事物的认知限度，同时也帮忙咱们去理解自我。
尝试在太空中「再造」食品时，钻研人员发现食品真不克不及只被降至「养分够」。
要放弃太空人们身心安康，色香味口感声响无一不影响感知，环境要讲求，一同吃饭的人也十分首要。
当咱们具有一个能「流利说人话」的 ChatGPT 时，人们也开始发现人类言语不仅对于「文字」。
一个只由言语素材训练的零碎永久都不会接近人类智能，即使它从当初就开始训练，训练到宇宙覆灭都不行。钻研 AI 哲学的 Jacob Browning 和图灵奖得主 Yann Le Cun 在联结撰写的文章中指出。
他们以为，文字作为一种高度稀释的笼统符号，人类能了解的根底在于咱们具有丰硕的非言语共鸣和集体体验。这也象征着文字总可能会带来误读和歧义。
言语是咱们沟通的工具，但教育者对先生的了解和评价，不该只限于卷子上。
和先进的大型言语模型打交道，浮现出咱们单从言语中能失掉的货色是如许无限。

华人澳洲中文论坛

热图推荐

ChatGPT 经过了顶尖大学的考试，比反 AI 更该做的是改考题

发表回复

浏览过的版块

月落乌啼
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

ChatGPT 经过了顶尖大学的考试，比反 AI 更该做的是改考题

发表回复

浏览过的版块

月落乌啼 关注TA

图文推荐

月落乌啼
关注TA