华人澳洲中文论坛

热图推荐

    零障碍合并两个模型,大型ResNet模型线性衔接只需几秒,神经网络启示性新钻研

    [复制链接]

    2022-9-14 18:25:24 32 0

    机器之心报导
    编纂:杜伟、陈萍
    这篇论文讨论了摆列对称性(permutation sy妹妹etry)如安在 SGD 解决计划的线性模式衔接中发扬首要作用。
    深度学习可以取得如斯成绩,得益于其可以相对于轻松地解决大范围非凸优化问题。只管非凸优化是 NP 难题的,但一些简略的算法,一般为随机梯度降落(SGD)的变体,它们在实际拟合大型神经网络时表示出惊人的无效性。
    本文中,来自华盛顿大学的多位学者撰文《 Git Re-Basin: Merging Models modulo Permutation Sy妹妹etries 》,他们钻研了在深度学习中,SGD 算法在高维非凸优化问题上的分歧理无效性。他们遭到三个问题的启示:
    1. 为何 SGD 在高维非凸深度学习损失 landscapes 的优化中表示良好,而在其余非凸优化设置中,如 policy 学习、轨迹优化和保举零碎的稳健性显著降落 ?
    2. 局部极小值在哪里?在初始化权值和终究训练权值之间进行线性插值时,为何损失会平滑、单调地减小?
    3. 两个独立训练的模型,它们拥有不同的随机初始化和数据批处置程序,为什么会完成简直相反的机能?另外,为何它们的训练损失曲线看起来同样


    论文地址:http://arxiv.org/pdf/2209.04836.pdf
    本文以为:在模型训练中存在一些不变性,这样一来才会有不同的训练表示出简直相反的机能。
    为何会这样呢?2019 年,Brea 等人留意到神经网络中的暗藏单元拥有摆列对称性。简略的说就是:咱们能够替换网络中暗藏层的恣意两个单元,而网络功用将放弃不变。2021 年 Entezari 等人揣测,这些摆列对称可能允许咱们在权值空间中线性衔接点,而不侵害损失。
    上面咱们以论文作者之一的举例来讲明文章宗旨,这样大家会更分明。
    如果说你训练了一个 A 模型,你的敌人训练了一个 B 模型,这两个模型训练数据可能不同。不妨事,使用本文提出的 Git Re-Basin,你能在权值空间合并这两个模型 A+B,而不会侵害损失。


    论文作者表现,Git Re-Basin 可合用于任何神经网络(NN),他们初次演示了在两个独立训练(没有事后训练)的模型(ResNets)之间,能够零障碍的线性连通。
    他们发现,合并才能是 SGD 训练的一个属性,在初始化时合并是不克不及任务的,然而会产生相变,因此跟着时间的推移合并将成为可能。


    他们还发现,模型宽度与可合并性亲密相干,即越宽越好。


    另外,并不是一切架构都能合并:VGG 似乎比 ResNets 更难合并。
    这类合并办法还有其余优点,你能够在不相交和有偏差的数据集上训练模型,而后在权值空间中将它们合并在一同。例如,你有一些数据在美国,一些在欧盟。因为某些缘故,不克不及混合数据。你能够先训练独自的模型,而后合并权重,最初泛化到合并的数据集。


    因此,在不需求预训练或微调的状况下能够混合训练过的模型。作者表现本人很想知道线性模式衔接和模型修补的将来开展标的目的,可能会运用到联邦学习、散布式训练以及深度学习优化等畛域。
    最初还提到,章节 3.2 中的权重婚配算法只需 10 秒摆布便可运转,所以节俭了少量时间。论文第 3 章也引见了 A 模型与 B 模型单元婚配的三种办法,对婚配算法还不分明的小火伴,能够查看原论文。
    网友评论及作者解疑
    这篇论文在推特上诱发了热议,PyTorch 联结开创人 Soumith Chintala 表现假如这项钻研能够迁徙到更大的设置,则它能够完成的标的目的会更棒。合并两个模型(包罗权重)能够扩展 ML 模型开发,并可能在开源的独特开发模型中发扬微小作用。


    另有人以为假如摆列不变机能够这样高效地捕获大部份等价性,它将为神经网络的实践钻研提供启示。


    论文一作、华盛顿大学博士 Samuel Ainsworth 也解答了网友提出的一些问题。
    首先有人问,「论文中是不是无关于在训练中针对共同 basin 的任何提醒?假如有一种办法能够做到对摆列进行笼统,那末训练速度可能会更快。」
    Ainsworth 回复称,这点本人没有想到。他真的但愿可以以某种形式完成更快地训练,但目前为止已被证实十分难题。问题在于 SGD 实质上是一种局部搜寻,因此利用高阶几何并非那末容易。或许散布式训练是一种可行的办法。


    还有人问是不是合用于 RNN 和 Transformers?Ainsworth 表现准则上合用,但他尚无对此进行试验。时间会证实所有。


    最初有人提出,「这看起来对散布式训练『成真』十分首要?莫非 DDPM(去噪分散几率模型)不使用 ResNet 残差块吗?」
    Ainsworth 回复称,虽然他本人对 DDPM 不是很相熟,但直抒己见表现将它用于散布式训练将十分使人兴奋。


    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子41

    积分192

    图文推荐