谷歌推出深度学习调优手册，不到一天狂揽十二00星，Hinton转发｜GitHub

lyh998

原标题：谷歌推出深度学习调优手册，不到一天狂揽十二00星，Hinton转发｜GitHub
丰色 Pine 发自凹非寺
量子位 | 大众号 QbitAI
各位炼丹er们，调参是你们最头疼的环节吗？

j53qrl01hb3.jpg

当初，一份上线不到一天就狂揽十二00+星的 《深度学习调优手册》来了。

bfhjaxwmuua.jpg

△数字还在飞速下跌，估量马上就要登热榜了
这多是市面上首个如斯片面的炼丹宝典，由 5位谷歌工程师大佬协作总结。

ejkm5camlau.jpg

展开全文为了这份手册，他们总结了本人在训练网络、带新工程师、以及和共事交流时get到的各种教训和技能。
连“深度学习之父”Geoffrey Hinton都来盛赞：

12k5x12isgh.jpg

来看看详细都有些啥。
谷歌炼丹宝典，聚焦超参数调剂
本手册合用规模为：对零碎地 最大化深度学习模型机能感兴致的工程师和钻研人员，包罗集体和团队。
默许翻开这本手册的都掌握了机器学习根本常识和深度学习概念。
其中内容次要聚焦 超参数调剂，由于这是作者们在任务中耗时至多、播种也至多的环节。
详细一共分为四大部份：
开始新名目
第一部份从训练一个新的模型开始，教大家如何选择：
（1）模型架构（2）优化器（3）batch size（4）初始配置。
好比，在选择优化器时，因为一切类型的机器学习问题和模型架构中都不存在最佳的那一个，那末咱们就坚持选择时下最盛行、最成熟的那一个（尤为关于新名目来讲）。
这里作者们保举（但不限于）：SGDM和更通用的Adam、NAdam，特别提示：Adam有4个可调超参数，它们都很首要。
而在选择batch size时，需求留意它只是抉择训练速度，不该该间接用于调剂验证集的机能。
由于有钻研标明，只有一切超参数都通过良好调剂（尤为是学习率和正则化超参数）而且训练步数足够，任何batch size值都应该能够获取相反的机能。
通常来讲，现实的batch size是可用硬件反对的最大值。
详细如何选择，手册在这里作出了十分具体的解释：

lqp5lavor2o.jpg

初始配置方面，指点准则是找到一个简略、相对于疾速、资源损耗相对于较低的配置，好获取一个“公道”的后果。
所谓简略，就是切记不要在开始时就添加一些花狸狐哨的货色，现阶段没用不说还挥霍时间。
好比在找到一个适合的学习率以前，就不要想着各种花式的decay schedule。
迷信进步模型机能
本部份的教训建设下列两点条件之上：
咱们曾经有一个彻底运转的训练pipeline以及可以获取公道后果的配置；  有足够的计算资源用于进行无意义的调剂试验、用于并行运转多个训练名目。详细一共分为7个小部份：
第1部份标题为“逐渐调剂战略”，即从一个简略的配置开始，逐渐进行改进，需求反复下列四个步骤：
为下一轮试验肯定规模适量的指标；  设计并运转试验，朝着指标取得停顿；  剖析后果；  斟酌是不是推出新的最好配置。后续部份就是环抱下面四个步骤进行具体的展开，超参数如何选择和修正也在本节作为重点泛起。
好比不论咱们的试验指标是甚么，咱们都需求将超参数分为三类：迷信超参数、nuisance超参数和固定超参数。
假如咱们的指标是“肯定拥有更多暗藏层（hidden layer）的模型是不是会增加验证过错”，那末暗藏层数就是一个迷信超参数，这是咱们在设计新试验时需求首先肯定的。
需求修正的次要是第二类。
当咱们进行到第三步，也就是剖析后果时，需求额定问本人下列几个问题：
搜寻空间是不是足够大？是不是从外面采样了足够多的点？该模型是不是存在优化问题？咱们能够从最好实验的训练曲线中学到甚么？
详细怎么判别和解决这些问题，手册也有十分具体的解释。
最初，当咱们肯定好了应该调剂哪些超参数，就能善用 贝叶斯优化工具了。
不同任务负载如何设置训练步数
在这部份，手册按照 任务负载的不同分了两部份来展开，分别为：
任务负载为计算密集型（CPU密集型）时，训练步数如何设置？  任务负载为非计算密集型（IO密集型）时，训练步数如何设置？艰深来说，计算密集型与非计算密集型就是受不受计算量的限度。而咱们要解决的问题，就是无论在哪一种状况下，如何让模型都能达到最好成果。
也未几说空话，间接举个栗子 ?来看宝典中是如何讲的？
当任务负载受计算限度时，也就是说计算资源成为次要的限度要素，首先面临的问题就是：
假如训练损失在有限期的改良，有无须要这样始终训练上来？
假如训练损失在有限期的改良，有无须要这样始终训练上来？
宝典给出的谜底是： 没有！多轮调剂最理智，1～3轮最实用。
而且还附有两轮调剂的详细倡议：
第1轮：较短的运转时间以找到好的模型和优化器超参数  第2轮：不要在良好的超参数点上长期运转以获取终究模型（详见手册）

amloki0zueb.jpg

对于当任务负载不受计算限度时，调剂的部份次要环抱max_train_steps，详细这里就再也不赘述。
其余增补
到这里，宝典差未几就接近序幕了，谷歌钻研员们还贴心肠给出了一份pipeline训练的增补指南，内容包罗：
优化输出pipeline  评价模型机能  保留反省点并回顾性地选择最好反省点  建设试验跟踪  Batch标准化完成细节  multi-host pipelines的留意事项在“优化输出pipeline”部份，宝典列出了致使输出pipeline的一些常见缘故，并给出了一些小tips。

rrndbf2l1mn.jpg

对于“评价模型机能”，也给出了具体的操作步骤。

mg4ebrd1oge.jpg

……
宝典全文的链接也已附在文末，感兴致的敌人能够扔进保藏夹了。

iniw0dqs5ep.jpg

mem it～
对于作者
一共4位谷歌退职大佬，1位哈佛的在读博士生（之前也在谷歌任务了5年多）。
Varun Godbole，目前是谷歌AI的一位软件工程师，次要教训集中在建模和构建处置大型数据集的根底设施方面。

xlt2abvq0jf.jpg

以前，他的钻研畛域是计算机视觉和医学图象的穿插点，合著的论文“International evaluation of an AI system for breast cancer screening”曾登上Nature。
George E. Dahl，是谷歌大脑团队的钻研迷信家，他的钻研集中在高度灵敏的模型上，而且他还对言语、感知数据以及化学、生物和医学数据的运用感兴致。

nekqolo12ul.jpg

Justin Gilmer，谷歌大脑的钻研迷信家，他在Google Scholar上援用曾经破万，次要钻研标的目的为深度学习、组合型、随机图论。

vq5jsircnag.jpg

量子位前不久的《几十年数学困难被谷歌钻研员不测冲破！曾因不想搞数学自学编程，当年差点被导师赶出门》讲的恰是这位迷信家。
Christopher Shallue，目前正在攻读哈佛大学的天体物理学博士学位，在此以前，他曾在谷歌任务了5年10个月。

kt51kiwxtu4.jpg

在谷歌任务的那段时间，Shallue有3年多的时间在谷歌大脑负责机器学习钻研工程师，钻研的内容包罗：
放慢超级计算机范围的机器学习培训实证钻研机器学习中的优化算法和超参数调剂 TensorFlow 中的开源参考模型完成（图象字幕、句子嵌入、系在行星探测） Zachary Nado，谷歌大脑的钻研工程师，本科就读期间，曾前后在谷歌和SpaceX实习，钻研畛域包罗数据挖掘与建模、机器智能、NLP等。

kchqh5buwsa.jpg

宝典传送门：
http://github.com/古歌-research/tuning_playbook
— 完—
百度钻研院、阿里达摩院、量子位智库
年度十大科技讲演
总结2022，预见2023。来自百度钻研院、阿里达摩院和量子位智库的年度十大科技讲演均已公布， 点击下方图片便可跳转查看。
百度钻研院
阿里达摩院
量子位智库
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

谷歌推出深度学习调优手册，不到一天狂揽十二00星，Hinton转发｜GitHub

发表回复

浏览过的版块

lyh998
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

谷歌推出深度学习调优手册，不到一天狂揽十二00星，Hinton转发｜GitHub

发表回复

浏览过的版块

lyh998 关注TA

图文推荐

lyh998
关注TA