华人澳洲中文论坛

热图推荐

    ChatGPT大战司法考试,无需微调一类试题达到人类程度!医学化学公务员试题都能答

    [复制链接]

    2023-1-4 18:09:42 44 0

    原标题:ChatGPT大战司法考试,无需微调一类试题达到人类程度!医学化学公务员试题都能答  
    杨净 明敏 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    ChatGPT的下一个新身份——做题家!  
    这不,它曾经在人类各个考试中开“卷”了。  
    律师、医生、注会甚么的,它都开始纷纭展露身手。  
    好比,寰球考生都头疼的司法考试,当初ChatGPT在两项试题达到了合格率,其中一项还跟人类程度持平。 (仍是在没有任何微调的根底上)  

    2h4b133v1dk.jpg

    2h4b133v1dk.jpg


    “成就”一出,瞬间诱发微小关注,网友:Amazing~  

    xi0akb55nwm.jpg

    xi0akb55nwm.jpg


    还有人表现,要是让它来加入SAT或AP考试,应该会颇有趣。  
    咳咳,要是 公务员考试呢?   
    展开全文    我们开头见分晓!   
    两项法考试题合格   
    详细就先来看看ChatGPT在司法考试中的表示如何。  
    美国大少数州一致的司法考试 (UBE),有三个组成部份:选择题 (多州律师考试,MBE)、作文 (MEE)、情形表示 (MPT)。   
    选择题部份,由来自8个种别的200道题组成,通常占全部律师考试分数的50%。  

    dokogooylzu.jpg

    dokogooylzu.jpg


    在这项钻研中,钻研人员对OpenAI的text-davinci-003模型 (通常被称为GPT-3.5)在MBE的表示进行评价。   
    (ChatGPT恰是GPT-3.5面向大众的聊天机器人版本。)  
    为了测试实际成果,钻研人员购买了民间组织提供的规范考试筹备资料,包罗练习题和摹拟考试。每个问题的注释都是自动提取的,其中有四个多选选项,并与谜底离开存储,谜底仅由每个问题的正确字母谜底组成,也没有对正确和过错的谜底进行解释。  
    随后,钻研人员分别对GPT-3.5进行了提醒工程、超参数优化以及微调的尝试。后果发现,超参数优化和提醒工程对GPT-3.5的成就表示有踊跃影响,而微调没有任何成果。  
    在提醒工程中,他们共测试了7种提醒类型。  
    1、只做单项选择;  2、单项选择和解释;  3、只做前两个选择;  4、前两个选择和解释;  5、前两个选择和从新提醒;  6、对一切选择进行排序;  7、对前三个选择进行排序。   

    3qvop4cog00.jpg

    3qvop4cog00.jpg


    钻研人员在上述的提醒和参数值中履行了107次样本考试。后果在这些提醒中,提醒格调#7的前三个选项排序表示最佳,他们共采集了41个样本,对这个提醒进行参数组合。  
    超参数优化中,他们评价了包罗温度系数、top p、best of、max tokens等参数。  
    终究在残缺的MBE练习考试中达到了50.3%的均匀正确率,大大超过了25%的基线猜测率,而且在证据和侵权行动两个类型都达到了均匀经过率。尤为是证据种别,与人类程度持平,放弃着63%的精确率。  

    fe43drphjyn.jpg

    fe43drphjyn.jpg


    在一切种别中,GPT均匀后进于人类应试者约17%。在证据、侵权行动和民事诉讼的状况下,这一差距能够疏忽不计或只要个位数。  
    但总的来讲,这一后果都大大超越了钻研人员的预期。  
    由于它对谜底排序与正确性有很强的相干性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的精确率全都超过了极限,有五个种别均超过了人类均匀程度。而“Top3”的精确度更高,在证据这一表示中乃至达到了98%。  
    这也证明了它对法律畛域的个别了解,而非随机猜测。接上去他们将进一步对法考的其余两部份:作文和情形表示进行上述的钻研。  
    ChatGPT能当考霸吗?   
    谷歌资深软件工程师肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列测试,波及 司法、医学、会计学、化学等多个畛域。   
    分数最高的一门是纽约州高中结业英语言语艺术考试,ChatGPT正确率达到了 91.6%。   
    由于是2022年8月的考试,所以ChatGPT数据库中确定不包孕考试内容。关于生疏的24道考题,它只错了2题。  
    物理/化学考试中,ChatGPT的表示也不错,正确率达到了 77.7%,45道标题问题中答对了35道。   

    a2fol4ntuwz.jpg

    a2fol4ntuwz.jpg


    前不久,谷歌医疗大模型Med-PaLM经过美国医师执照试题(USMLE)验证。  
    ChatGPT也不甘于后进,一样应战了USMLE的第一阶段根底医学考试。  
    去掉有图象的标题问题后 (因无奈输出对话框),ChatGPT正确率达 70%。   

    dogmbgul3k3.jpg

    dogmbgul3k3.jpg


    其他则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式标题问题。  
    好比美国律师职业品德考试(MPRE)的示例标题问题(共15道),ChatGPT答对了9道,正确率 60%。   
    面对50道律师资历考试摹拟试题,ChatGPT的正确率也维持在了70%,答对35道。  
    另外,在佛罗里达农工大学法学院的退学考试中,ChatGPT取患了149分,排名在前40%。其中浏览了解类标题问题表示最佳。  
    表示最差的,仍是 数学题。   
    在CPA注会考试中,ChatGPT的正确率只要40%。肯尼斯老哥还在尝试一些调教办法,让它更聪明一些。  

    cd4xqw3wshr.jpg

    cd4xqw3wshr.jpg


    总之,ChatGPT在各种考试中的表示,仍是让人有些不测。  
    有网友曾经发生危机感了:  
    damn,我的任务要被抢了!
        damn,我的任务要被抢了!  

    lhfzbc3m0sm.jpg

    lhfzbc3m0sm.jpg


    有人剖析,假如间接让AI来插足司法相干的判别,危险真的很大,但若前期有专人来审核它的输入后果,那末AI将可以很好晋升律师的任务效力。  

    05lfojo0k2g.jpg

    05lfojo0k2g.jpg


    还有人表现,假如能包管任何数据都不泄漏的话,那ChatGPT将可以推进更多行业平民化。  

    ghhmoq2dbel.jpg

    ghhmoq2dbel.jpg


    也许正如肯尼斯老哥说的那样,人类+电脑的组合曾经超出了人类本身才能,这就是计算机当下正在进行的冲破。  

    ai2obsseykc.jpg

    ai2obsseykc.jpg


    One More Thing   
    最初,咱们也让ChatGPT试了试国际法考的标题问题~  
    先说后果,3道选择题,ChatGPT都没有答对……虽然解释得 有条有理,但它应该的确没有读过我国的法条。  

    r2t2duihtog.jpg

    r2t2duihtog.jpg

      
    参考谜底D   
    (这谜底罗翔教师看了直点头)  

    yopa0avvdjo.jpg

    yopa0avvdjo.jpg

      
    参考谜底A   
    换成公务员行测试题呢?没想到ChatGPT的谜底对了,可是进程和谜底似乎彻底不妨事……  

    35eex32d3ms.jpg

    35eex32d3ms.jpg


    这……怎么觉得AI秒算后果,但随意编了个进程来糊弄人类啊   

    pizjxzv4aop.jpg

    pizjxzv4aop.jpg


    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    PS. 加好友请务必备注您的姓名-公司-职位噢 ~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题35

    帖子45

    积分213

    图文推荐