华人澳洲中文论坛

热图推荐

    AI做题家卷疯了!高数考试正确率81%,比赛题成就超过计算机博士

    [复制链接]

    2022-7-6 12:57:13 36 0

    原标题:AI做题家卷疯了!高数考试正确率81%,比赛题成就超过计算机博士  
    梦晨 丰色 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    高数考欠好,不知道是多少人的恶梦。  


    假如说你高数考得还不如AI好,是否就更难以承受了?  
    没错,来自OpenAI的Codex曾经在MIT的7门高数课程标题问题中正确率达到 81.1%,妥妥的 MIT本科生程度。   
    课程规模从高级微积分到微分方程、几率论、线性代数都有,标题问题方式除了计算、乃至还有画图。  


    这件事比来还登上了微博热搜。  


    “仅”得81分,对AI的期待也过高了吧   
    当初,谷歌那边又传来了最新大动静:  
    不止数学,咱们的AI乃至在 全部理工科上,都曾经拿到最高分啦!
        看来在造就“AI做题家”这件事上,科技巨头们曾经卷出了新高度。  


    谷歌这个最新AI做题家,加入了四门考试。  
    数学比赛考试MATH,以往只要三届IMO金牌得主才拿过90分,普通的计算机博士乃至只能拿到40分摆布。   
    至于别的AI做题家们,之前最佳成就只要6.9分……  
    但这一次,谷歌新AI却刷到了50分, 比计算机博士还高。   
    综合考试MMLU-STEM,内含数理化生、电子工程和计算机迷信,标题问题难度达到高中乃至大学程度。   
    这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,间接将分数拉高了 20分摆布。   


    小学数学题GSM8k,间接将成就拉升到78分,比拟之下GPT-3还没及格(仅55分)。   
    就连 MIT本科和钻研生学的固体化学、天文学、微分方程和广义相对于论等课程,谷歌新AI也能在200多道题中,答出将近 三分之一。   
    最首要的是,与OpenAI凭借“编程技能”取得数学高分的办法不同,谷歌AI这一次,走的可是“像人同样思考”的路子——  
    它像一个理科生同样只背书不做题,却掌握了更好的理工科解题技能。  
    值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:  
    咱们的模型加入了往年的波兰数学高考, 成就比全国均匀分还要高
       


    看到这里,有的家长曾经坐不住了。  
    假如告知我女儿这件事,我怕她用AI做功课。但若不告知她,就没有让她对将来做好筹备!
        在业内人士看来,只靠言语模型,不合错误算数、逻辑和代数做硬编码达到这类程度,是这项钻研最惊艳之处。  
    那末,这是怎么做到的?  
    AI狂读arXiv上200万篇论文   
    新模型Minerva,基于Pathway架构下的通用言语模型PaLM革新而来。  
    分别在80亿、600亿和5400亿参数PaLM模型的根底上做进一步训练。  
    Minerva做题与Codex的思绪彻底不同。  
    Codex的办法是把每道数学题改写成编程题,再 靠写代码来解决。   
    而Minerva则是狂读论文,硬生生 按了解天然言语的形式去了解数学符号。   
    在PaLM的根底上持续训练,新增的数据集有三部份:  
    次要有arXiv上采集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部份在PaLM训练阶段就用到过的文本。  
    通常的NLP数据荡涤进程会把符号都删掉只保存纯文字,致使公式不残缺,好比爱因斯坦著名的质能方程只剩下了Emc2。  


    但谷歌这次把公式都保存,和纯文本同样走一遍Transformer的训练顺序,让AI像了解言语同样去了解符号。  
    与以前的言语模型比拟,这是Minerva在数理问题上表示更好的缘故之一。  
    但与专门做数学题的AI比拟,Minerva的训练中没有显式的底层数学构造,这带来一个缺陷和一个优点。  
    缺陷,是可能泛起AI用过错的步骤失掉正确谜底的状况。   
    优点,是能够顺应不同窗科,即便有些问题无奈用正轨的数学言语表白出来,也能够结合天然言语了解才能解出来。   
    到了AI的推理阶段,Minerva还结合了多个比来谷歌开发的新技术。  
    先是 Chain of Thought思惟链路提醒,往年一月由谷歌大脑团队提出。   
    详细来讲就是在发问的同时给一个分步骤回答的示例来疏导。AI在做题时就能采取相似的思考进程,正确回答原本会答错的标题问题。  


    再有是谷歌和 MIT协作开发的 Scrathpad 草稿纸办法 ,让AI把分步计算的两头后果暂时存储起来。   


    最初还有 Majority Voting少数表决办法,也是往年3月才颁发的。   
    让AI屡次回答同一个标题问题,选择谜底中泛起频率最高的。  


    一切这些技能全用上当前,5400亿参数的Minerva在各种测试集中达到SOTA。  
    乃至 80亿参数版的Minerva,在比赛级数学题和MIT地下课问题中,也能达到GPT-3最新更新的davinci-002版本程度。   


    说了这么多,Minerva详细都能做出哪些标题问题?  
    对此谷歌也凋谢出了样例集,一同来看一下。  
    数理化生全能,连机器学习都会   
    数学上,Minerva能够像人类同样按步骤计算数值,而不是间接暴力图解。   
    关于运用题,能够本人列出方程式并做简化。  


    乃至还能够推导证实。  


    物理上,Minerva能够求中性氮基态(Z = 7)电子的总自旋量子数这样的大学程度标题问题。   


    生物和化学上,Minerva凭借言语了解才能也能够做各种选择题。   
    下列哪一种点渐变方式对DNA序列造成的蛋白质没有负面影响?  


    下列哪一种是喷射性元素?  


    以及 天文学:为何地球具有很强的磁场?   


    机器学习方面,它经过解释“散布外样本检测”的详细含意,从而正确了给出这个名词的另外一种说法。   


    ……  
    不外,Minerva有时也会犯一些低级过错,好比把等式两边的√给消了。  
    除此以外,Minerva会泛起的推理进程过错但后果对的“假阳性”状况,好比上面这类,有8%的可能性。  


    通过剖析之后,团队发现次要的过错方式来自 计算过错推理过错,只要小部份来自题意了解过错和在步骤中使用了过错的事实等其余状况。   
    其中计算过错能够等闲经过拜候内部计算器或Python解释器解决,但其余品种的过错由于神经网络范围太大就不太好调剂了。  


    总的来看,Minerva的表示让得多人感到惊艳,纷纭在评论区求API(惋惜谷歌目前并无地下方案)。  


    有的网友想到,加之前几日 让GPT-3解题正确率暴跌61%的“哄一哄”大法 , 它的精确率也许还能够再进步?  


    不外作者的回应是,哄一哄办法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。  
    还有网友提出,既然它能够做题,那末能不克不及反过去出题?  
    事实上用AI给大先生出题这件事,MIT曾经联结OpenAI在做了。  
    他们把人类出的题和AI出的题混在一同,找先生来做问卷考察,大家也很难分清一道题是否AI出的。  


    总之当初的状况,除了搞AI的在忙着读这篇论文之外。  
    先生们盼着有一天能用AI做功课。  
    教师们也盼着有一天能用AI出卷子。  
    论文地址:   
    http://storage.古歌apis.com/minerva-paper/minerva_paper.pdf  
    Demo地址:   
    http://minerva-demo.github.io/  
    相干论文:   
    Chain of Thought   
    http://arxiv.org/abs/2201.十一903   
    Scrathpads   
    http://arxiv.org/abs/2十一2.00十一4   
    Majority Voting   
    http://arxiv.org/abs/2203.十一171  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加咱们,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    ps.加好友请务必备注您的姓名-公司-职位哦~   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题37

    帖子47

    积分223

    图文推荐