|
原标题:用BT下载的形式在家跑千亿大模型,推理/微调速度10倍晋升
鱼羊 发自 凹非寺
量子位 | 大众号 QbitAI
在家用 消费级GPU就可以跑1760亿参数大模型,推理微调都很快。
仍是用 BT下载的形式完成。
这事儿可把AI喜好者们陈腐坏了。
这不,这个名为 PETALS的名目刚开源没多久,GitHub标星数就达到了1.3k。
老司机们都知道,BT下载这玩艺儿,下载同一个文件的人越多,这个文件的下载速度就越快,由于每个下载用户都会成为一个“资源节点”,互通有没有。
PETALS情理差未几,就是把大家伙的GPU都利用起来,协同推理/微调同一个大模型。
用上它,你的GPU实际上只需求加载大模型的一小部份,就可以把模型跑起来,速度还嘎嘎快:
推理速度能达到1秒/token,比offloading的形式快10倍。
offloading是经过进步GPU利用率,减速模型训练的一种办法,
甚么是PETALS
详细来讲,PETALS来自BigScience这个科研协作名目。此前人人皆可用的1760亿参数开源大模型 BLOOM也来自于该名目。
至于PETALS详细是怎么个用法,先来看看上面这个例子:
张三想基于BLOOM搞个懂法语的言语大模型,而李四则想微调BLOOM让它学会C++编程。
只管工作不同,但二者波及的一些步骤却是共通的。
此时包罗张三李四在内的PETALS用户们,自各儿的GPU里已分别加载好了模型的一部份 (子集)。
因而,张三和李四就能经过网络追求其余用户的帮忙,利用他人曾经具有的模型子集,在最短期内对BLOOM进行微调。同时,他们GPU上的模型资源也会被其余用户利用。
gllby1fkq44.jpg
展开全文 实际的操作过程当中,PETALS的每个参预者,都会经过当地装备运转一个办事器/客户端,或者二者兼具。
办事器包孕模型层子集,一般为Transformer块。同时,办事器会处置来自客户真个申请。
客户端则会造成以流水线方式并行的一连串办事器,来运转全部模型的推理/微调。
值得一提的是,微调后的子模型能够在模型核心同享,持续提供应其余人使用。
kkwkpiag3wn.jpg
另外,为了进步散布式推理的机能,开发人员们还采用了下列战略:
静态量化,使每个GPU存储更多参数,增加延续装备和通讯回合的数量; 优先斟酌低提早衔接,即每个客户端优先斟酌间隔近的办事器; 办事器之间的负载平衡。 在这些优化措施的根底之上,钻研人员证实,千亿参数级别的模型能够基于PETALS无效运转。
aqml3lpunfu.jpg
对了,假如你感兴致,还能够间接在民间提供的Colab链接上试玩一下,地址文末奉上~
2iavl0wgdwf.jpg
对于BigScience
前文说到,PETALS是BigScience名目的一部份。
BigScience是一个凋谢迷信协作方案,旨在打破科技巨头对AI资源的垄断。
此前,在HuggingFace、法国国度大型计算核心等机构的牵头之下,BigScience汇聚来自60个国度和250多个机构的1000多名钻研人员,一同搞出了“人人可用”、从代码到数据集统统开源的BLOOM言语大模型。
BLOOM有1760亿参数,反对59种言语,是目前最大的多语种开源言语模型。
4l324uhoqxa.jpg
目前,PETALS次要反对的就是BLOOM。不外开发人员表现,将来还将反对更多根底模型。
Colab地址:
http://colab.research.古歌.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing
— 完—
「人工智能」、「智能汽车」微信社群邀你参加!
欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~ |
|