华人澳洲中文论坛

热图推荐

    初次发现!数据异构影响联邦学习模型,症结在于表征维度坍缩 | ICLR 2023

    [复制链接]

    2023-3-6 06:54:11 21 0

    原标题:初次发现!数据异构影响联邦学习模型,症结在于表征维度坍缩 | ICLR 2023  
    施宇钧NUS 投稿   
    量子位 | 大众号 QbitAI   
    跟着深度学习大获胜利,维护用户数据隐衷变得愈来愈首要。  
    联邦学习(Federated Learning)应运而生,这是一种基于隐衷维护的散布式机器学习框架。   
    它能够让原始数据保存在当地,让多方联结同享模型训练。  


    但它有一个问题—— 数据的异质化(data heterogeneity),即不同的参预方的当地数据来自不同的散布,这将重大影响全局模型的终究机能,面前缘故也非常繁杂。   
    字节跳动、新加坡国立大学及中科院自动化所的学者们 初次发现了症结影响要素。   
    即:数据异质化致使了表征的 维度坍缩(dimensional collapse),由此大大限度了模型的表白才能,影响了终究全局模型的机能。   
    为了减缓这一问题,钻研人员提出了一个新联邦学习正则项: FedDecorr。   


         后果标明,使用该办法后,数据异质化带来的维度坍缩问题被无效减缓,明显晋升模型在该场景下的机能。  
    同时这一办法完成简略,简直不会带来额定计算担负,能够很容易地参加到多种联邦学习算法上。  
    如何影响? 视察一:更重大的数据异质化会为全局模型(global model)带来更重大的维度坍缩   
    首先,为了更好地 了解数据异质化是如何影响全局模型输入表征的,钻研人员探究了跟着数据异质化愈来愈重大,全局模型输入表征是如何而变动的。  
    基于模型输入的表征,估量其表征散布的协方差矩阵(covariance matrix),而且根据从大到小的程序可视化了该协方差矩阵的特点值。后果如下图所示。α越小,异质化水平越高,α为正无量时为同质化场景。k为特点值的index。  


    关于该曲线,假如特点值大部份相对于较大,即象征着表征可以更为平均地 散布在不同的特点标的目的上。而假如该曲线只要后面多数特点值较大,然后面大部份特点值都很小,就象征着表征散布被紧缩在多数特点标的目的上,即维度坍缩景象。  
    因此,从图中能够看到, 跟着数据异质化水平愈来愈高(α愈来愈小),维度坍缩的景象就愈来愈重大。   
    视察二:全局模型的维度坍缩来自联邦参预各方的局部模型的维度坍缩   
    因为全局模型是联邦参预各方的局部模型融会的后果,因此作者推断:全局模型的维度坍缩来源于联邦参预各方的局部模型的维度坍缩。  
    为了进一步验证该推断,作者使用与视察1相似的办法,针对不同水平数据异质化场景下失掉的局部模型进行了可视化。后果如下图所示。  


    从图中能够看到,关于局部模型,跟着数据异质化水平的晋升,维度坍缩的景象也愈来愈重大。因此得出论断, 全局模型的维度坍缩来源于联邦参预各方的局部模型的维度坍缩。   
    怎么解决?   
    遭到以上两个视察的启示,因为全局模型的维度坍缩来源于当地局部模型的维度坍缩,钻研人员提出在当地训练阶段来解决联邦学习中的表征维度坍缩问题。  
    首先,一个最直观的可用的正则项为下列方式:  
    其中   


    为第 个特点值。该正则项将束缚特点值之间的方差变小,从而使得较小的特点值不会倾向于0,由此减缓维度坍缩。   
    但是,间接计算特点值往往会带来数值不不乱,计算时间较长等问题。因此借助下列proposition来改进办法。  
    为了便利处置,需求对表征向量做z-score归一化。这将使得协方差矩阵变为相干系数矩阵(对角线元素都是1)。  
    基于这个配景,能够失掉下列proposition:  
    这一proposition象征着,本来较为繁杂的基于特点值的正则化项,能够被转化为下列易于完成且计算便利的指标:  
    该正则项便是简略的束缚表征的相干系数矩阵的Frobenius norm更小。钻研人员将该办法命名为 FedDecorr。   
    因此,关于每个联邦学习参预方,当地的优化指标为:  
    其中 为分类的穿插熵损失函数,β为一个超参数,即FedDecorr正则项的系数。   
    试验后果   
    首先,验证使用FedDecorr是不是能够无效减缓维度坍缩。  
    在α=0.01/0.05这两个强数据异质化的场景下,视察使用FedDecorr对模型输入表征的影响。  
    后果如下图所示。  
    能够看到,使用FedDecorr能够无效地 减缓当地局部模型的维度坍缩,从而进一步减缓全局模型的维度坍缩。  
    在CIFAR10/100两个数据集上验证办法。钻研团队发现FedDecorr能够很便利的参加到以前提出的多个联邦学习办法,而且带来明显晋升:  


    同时,为了展现办法的可扩展性,作者在较大范围数据集(TinyImageNet)上进行了试验,而且也视察到了明显晋升:  


    另外还基于TinyImageNet,验证了FedDecorr在更大范围联邦参预方的场景下的无效性。  
    后果如下表。经过试验后果展现了FedDecorr能够被用于较大范围联邦参预方的场景。  


    FedDecorr对正则项系数(超参数β)的鲁棒性后果如下图所示。  
    经过试验,发现FedDecorr关于其超参数β有较强的鲁棒性。  
    同时发现将β设为0.1是一个不错的默许值。  
    最初,钻研人员验证了在联邦学习时,使用不同的local epoch下FedDecorr也能够带来广泛的晋升:  


    论文地址:  
    http://arxiv.org/abs/2210.00226  
    代码链接:  
    http://github.com/bytedance/FedDecorr  
    —   
    「中国AIGC产业峰会」启动  
    邀您共襄盛举  
    「中国AIGC产业峰会」行将在往年3月举行,峰会将约请AIGC产业相干畛域的专家学者,独特讨论生成新世界的过来、当初和将来。   
    峰会上还将公布 《中国AIGC产业全景讲演暨AIGC 50》,片面平面描画我国以后AIGC产业的竞争力求谱。点击链接或下方图片查看大会详情:   
    被ChatGPT带飞的AIGC如安在中国落地?量子位邀你独特参预中国AIGC产业峰会   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题24

    帖子30

    积分144

    图文推荐