华人澳洲中文论坛

热图推荐

    应战单卡单日训练BERT,ViT作者保举

    [复制链接]

    2023-1-2 07:27:27 18 0

    原标题:应战单卡单日训练BERT,ViT作者保举  
    Pine 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    单个GPU,只花一地利间,能把BERT训练成甚么样?  
    当初,终于有钻研人员做这件事了,在无限的计算前提之下看看言语模型的实在机能如何。  
    要知道在以往,大少数专业人员的关注点都在极端计算的前提下的言语模型机能。  
    但这样的言语训练模型环境,对得多钻研人员和从业人员是不成能存在的。  
    因此这个单天单个GPU的应战,就有网友称是一个最但愿看到的基准。  
    连ViT作者,谷歌大脑钻研员Lucas Beyer都发文保举,称这是一个使人线人一新的转变。  

    ytpbpu5yfpl.jpg

    ytpbpu5yfpl.jpg


    详细的进程和后果如何,一同来看看~  
    应战进程   
    这次钻研的指标也很明白,就是反其道行之:放大言语训练模型的算力, 在无限的计算量的状况下如何达到BERT的机能程度。   
    既然要放大计算量,那第一步确定是对模型作出一些限定。  
    这也仍是以前提到的,限按时间和GPU个数:单天单个GPU。  
    对于GPU,钻研人员分别拔取了3个进行测试,即rtx2080ti、rtxa4000和rtxa6000,每个单元有4个CPU核和32GB内存。  

    zmrirgdig5g.jpg

    zmrirgdig5g.jpg


    展开全文    在限定计算量之后,就要 对模型的其余参数进行一些调剂,以进一步对BERT的实际合用性进行评价。   
    这些调剂包罗 初始数据设置、模型架构、训练以及数据集的改进。   
    而且在调剂的过程当中,总体基调都是环抱“实际使用”进行的,防止跳转到专业的设置,为此,钻研人员将一切内容都放弃在PyTorch框架的完成级别上。  

    ggjh5pqotqf.jpg

    ggjh5pqotqf.jpg


    先来讲说 初始数据设置,这部份能够简略概括为下列几点:   
    将标志化的数据打包生长度为十二8的随机序列,不相干的片断用 联系;  删除 标志,由于在训练前训练中参加它并无对机能发生多大影响;  将序列长度为64到96巨大批量累积到大批量再处置。    而后是对 架构的修正,下图显示了不同模型在跟着token数量的减少MLM工作损失的变动。   
    后果很显然,一个模型损失的衰减很大水平地取决于模型的大小,而不是模型的类型。  

    ypbbarapv2a.jpg

    ypbbarapv2a.jpg


    而且,由于每个token的机能与模型大小之间的瓜葛严密耦合,若想经过改动Transformer模型的大小和类型来获取微小机能增益是不太可能的。  
    不外关于同大小的一切模型,每个梯度效力是简直放弃不变的,因此能够在包管模型大小不变的状况下,选择可以经过疾速搜寻减速计算的架构。  
    详细的优化和其余调剂如下:  
    增加留意力头的数量来升高梯度本钱:禁用一切QKV偏差;  禁用一切线性层偏差,经过减速梯度计算,不会对模型大小发生显著影响;  完成比例正弦地位嵌入,相较于学习或非比例正弦嵌入有增量收益;  LN的预规范化比后LN更无益;  去除非线性头部并没有影响。    接上去便要对 训练进行设置,详细也就再也不赘述,间接来看相干调剂:   
    优化器仍旧是Adam;  设定Learning Rate方案和批量大小;  丢掉Dropout环节。 (由于Dropout会致使每秒更新的净增加)    而在 数据集方面,钻研团队采取了两种基于数据的途径来更好地放大范围,分别是 以各种形式过滤、处置或排序现有的数据替换数据源,详细能够看下表。   

    bogfynke3e3.jpg

    bogfynke3e3.jpg


    机能接近最后的BERT   
    在调剂完各种参数后,这个单卡一天的BERT机能究竟如何?间接看看终究的数据!  
    在上游机能评价时是经过GLUE来进行的,下表可以看到在3个不同显卡上的得分,十分接近最后的BERT。  

    f3jm22og4nm.jpg

    f3jm22og4nm.jpg


    而当模型训练计算量为16倍时,即 (2天,在8个GPU),仍旧是同样的数据和设置,终究失掉的后果比最后的BERT进步了得多,达到了RoBERTa的机能程度。   

    n51vjbupptw.jpg

    n51vjbupptw.jpg


    假如想理解更多,能够点击上面链接查看论文原文~  
    论文原文:   
    http://arxiv.org/abs/22十二.14034  
    —   
    「2022人工智能年度评比」榜单揭晓  
    领航企业TOP50  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题31

    帖子49

    积分207

    图文推荐