华人澳洲中文论坛

热图推荐

    谷歌推出深度学习调优手册,不到一天狂揽十二00星,Hinton转发|GitHub

    [复制链接]

    2023-1-20 18:33:39 29 0

    原标题:谷歌推出深度学习调优手册,不到一天狂揽十二00星,Hinton转发|GitHub  
    丰色 Pine 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    各位炼丹er们, 调参是你们最头疼的环节吗?   

    j53qrl01hb3.jpg

    j53qrl01hb3.jpg


    当初,一份上线不到一天就狂揽十二00+星的 《深度学习调优手册》来了。   

    bfhjaxwmuua.jpg

    bfhjaxwmuua.jpg


    数字还在飞速下跌,估量马上就要登热榜了   
    这多是市面上首个如斯片面的炼丹宝典,由 5位谷歌工程师大佬协作总结。   

    ejkm5camlau.jpg

    ejkm5camlau.jpg


    展开全文    为了这份手册,他们总结了本人在训练网络、带新工程师、以及和共事交流时get到的各种教训和技能。  
    连“深度学习之父”Geoffrey Hinton都来盛赞:  

    12k5x12isgh.jpg

    12k5x12isgh.jpg


    来看看详细都有些啥。  
    谷歌炼丹宝典,聚焦超参数调剂   
    本手册合用规模为:对零碎地 最大化深度学习模型机能感兴致的工程师和钻研人员,包罗集体和团队。   
    默许翻开这本手册的都掌握了机器学习根本常识和深度学习概念。  
    其中内容次要聚焦 超参数调剂,由于这是作者们在任务中耗时至多、播种也至多的环节。   
    详细一共分为四大部份:  
    开始新名目   
    第一部份从训练一个新的模型开始,教大家如何选择:  
    (1)模型架构(2)优化器(3)batch size(4)初始配置。  
    好比,在选择优化器时,因为一切类型的机器学习问题和模型架构中都不存在最佳的那一个,那末咱们就坚持选择时下最盛行、最成熟的那一个 (尤为关于新名目来讲)。   
    这里作者们保举 (但不限于):SGDM和更通用的Adam、NAdam,特别提示:Adam有4个可调超参数 ,它们都很首要。   
    而在选择batch size时,需求留意它只是抉择训练速度,不该该间接用于调剂验证集的机能。  
    由于有钻研标明,只有一切超参数都通过良好调剂 (尤为是学习率和正则化超参数)而且训练步数足够,任何batch size值都应该能够获取相反的机能。   
    通常来讲,现实的batch size是可用硬件反对的最大值。  
    详细如何选择,手册在这里作出了十分具体的解释:  

    lqp5lavor2o.jpg

    lqp5lavor2o.jpg


    初始配置方面,指点准则是找到一个 简略、相对于疾速、资源损耗相对于较低的配置,好获取一个“公道”的后果。   
    所谓简略,就是切记不要在开始时就添加一些花狸狐哨的货色,现阶段没用不说还挥霍时间。  
    好比在找到一个适合的学习率以前,就不要想着各种花式的decay schedule。  
    迷信进步模型机能   
    本部份的教训建设下列两点条件之上:  
    咱们曾经有一个彻底运转的训练pipeline以及可以获取公道后果的配置;  有足够的计算资源用于进行无意义的调剂试验、用于并行运转多个训练名目。    详细一共分为7个小部份:  
    第1部份标题为“逐渐调剂战略”,即从一个简略的配置开始,逐渐进行改进,需求反复下列四个步骤:  
    为下一轮试验肯定规模适量的指标;  设计并运转试验,朝着指标取得停顿;  剖析后果;  斟酌是不是推出新的最好配置。    后续部份就是环抱下面四个步骤进行具体的展开,超参数如何选择和修正也在本节作为重点泛起。  
    好比不论咱们的试验指标是甚么,咱们都需求将超参数分为三类:迷信超参数、nuisance超参数和固定超参数。  
    假如咱们的指标是“肯定拥有更多暗藏层 (hidden layer)的模型是不是会增加验证过错”,那末暗藏层数就是一个迷信超参数,这是咱们在设计新试验时需求首先肯定的。   
    需求修正的次要是第二类。  
    当咱们进行到第三步,也就是剖析后果时,需求额定问本人下列几个问题:  
    搜寻空间是不是足够大?是不是从外面采样了足够多的点?该模型是不是存在优化问题?咱们能够从最好实验的训练曲线中学到甚么?  
    详细怎么判别和解决这些问题,手册也有十分具体的解释。  
    最初,当咱们肯定好了应该调剂哪些超参数,就能善用 贝叶斯优化工具了。   
    不同任务负载如何设置训练步数   
    在这部份,手册按照 任务负载的不同分了两部份来展开,分别为:   
    任务负载为计算密集型 (CPU密集型) 时,训练步数如何设置?  任务负载为非计算密集型 (IO密集型) 时,训练步数如何设置?    艰深来说,计算密集型与非计算密集型就是受不受计算量的限度。而咱们要解决的问题,就是无论在哪一种状况下,如何让模型都能达到最好成果。  
    也未几说空话,间接举个栗子 ?来看宝典中是如何讲的?  
    当任务负载受计算限度时,也就是说计算资源成为次要的限度要素,首先面临的问题就是:  
    假如训练损失在有限期的改良,有无须要这样始终训练上来?
        假如训练损失在有限期的改良,有无须要这样始终训练上来?  
    宝典给出的谜底是: 没有!多轮调剂最理智,1~3轮最实用。   
    而且还附有两轮调剂的详细倡议:  
    第1轮:较短的运转时间以找到好的模型和优化器超参数  第2轮:不要在良好的超参数点上长期运转以获取终究模型 (详见手册)   

    amloki0zueb.jpg

    amloki0zueb.jpg


    对于当任务负载不受计算限度时,调剂的部份次要环抱max_train_steps,详细这里就再也不赘述。  
    其余增补   
    到这里,宝典差未几就接近序幕了,谷歌钻研员们还贴心肠给出了一份pipeline训练的增补指南,内容包罗:  
    优化输出pipeline  评价模型机能  保留反省点并回顾性地选择最好反省点  建设试验跟踪  Batch标准化完成细节  multi-host pipelines的留意事项    在“优化输出pipeline”部份,宝典列出了致使输出pipeline的一些常见缘故,并给出了一些小tips。  

    rrndbf2l1mn.jpg

    rrndbf2l1mn.jpg


    对于“评价模型机能”,也给出了具体的操作步骤。  

    mg4ebrd1oge.jpg

    mg4ebrd1oge.jpg


    ……  
    宝典全文的链接也已附在文末,感兴致的敌人能够扔进保藏夹了。  

    iniw0dqs5ep.jpg

    iniw0dqs5ep.jpg


    mem it~  
    对于作者   
    一共4位谷歌退职大佬,1位哈佛的在读博士生 (之前也在谷歌任务了5年多)。   
    Varun Godbole,目前是谷歌AI的一位软件工程师,次要教训集中在建模和构建处置大型数据集的根底设施方面。   

    xlt2abvq0jf.jpg

    xlt2abvq0jf.jpg


    以前,他的钻研畛域是计算机视觉和医学图象的穿插点,合著的论文“International evaluation of an AI system for breast cancer screening”曾登上Nature。  
    George E. Dahl,是谷歌大脑团队的钻研迷信家,他的钻研集中在高度灵敏的模型上,而且他还对言语、感知数据以及化学、生物和医学数据的运用感兴致。   

    nekqolo12ul.jpg

    nekqolo12ul.jpg


    Justin Gilmer,谷歌大脑的钻研迷信家,他在Google Scholar上援用曾经破万,次要钻研标的目的为深度学习、组合型、随机图论。   

    vq5jsircnag.jpg

    vq5jsircnag.jpg


    量子位前不久的《几十年数学困难被谷歌钻研员不测冲破!曾因不想搞数学自学编程,当年差点被导师赶出门》讲的恰是这位迷信家。  
    Christopher Shallue,目前正在攻读哈佛大学的天体物理学博士学位,在此以前,他曾在谷歌任务了5年10个月。   

    kt51kiwxtu4.jpg

    kt51kiwxtu4.jpg


    在谷歌任务的那段时间,Shallue有3年多的时间在谷歌大脑负责机器学习钻研工程师,钻研的内容包罗:  
      放慢超级计算机范围的机器学习培训  实证钻研机器学习中的优化算法和超参数调剂  TensorFlow 中的开源参考模型完成 (图象字幕、句子嵌入、系在行星探测)    Zachary Nado,谷歌大脑的钻研工程师,本科就读期间,曾前后在谷歌和SpaceX实习,钻研畛域包罗数据挖掘与建模、机器智能、NLP等。   

    kchqh5buwsa.jpg

    kchqh5buwsa.jpg


    宝典传送门:   
    http://github.com/古歌-research/tuning_playbook   
    —   
    百度钻研院、阿里达摩院、量子位智库  
    年度十大科技讲演  
    总结2022,预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布, 点击下方图片便可跳转查看。   
    百度钻研院  
    阿里达摩院  
    量子位智库  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题40

    帖子53

    积分246

    图文推荐