|
原标题:清华郑纬民院士:AI for Science的泛起,让高机能计算与AI的融会成为刚需|MEET2023
杨净 整顿自 MEET2023
量子位 | 大众号 QbitAI
算力的需要,远比以来往得更加猛烈。乃至有人直呼: 得算力者得将来。
元宇宙、AIGC、AI for Science的涌现,又给高机能计算 (HPC)平增了好几把火。
在诸多应战与机遇共存交错确当下,这一畛域泰斗 中国工程院院士、清华大学计算机迷信与技术系郑纬民,在 MEET2023智能将来大会上,分享了本人的见地和思考。
估量将来两年到四年, HPC (高机能计算)+AI+BigData融会 的办事器就会泛起。
AI for Science的泛起,让HPC+AI的融会成为刚性需要;而数据处置又是AI的根底,数据和AI的融会也很天然。
估量将来两年到四年, HPC (高机能计算)+AI+BigData融会 的办事器就会泛起。
AI for Science的泛起,让HPC+AI的融会成为刚性需要;而数据处置又是AI的根底,数据和AI的融会也很天然。
乃至他还开玩笑说,当初要获HPC畛域的戈登贝尔奖,必需要有AI的算法。你没有AI的算法,不然奖都得不了。
虽然这是玩笑说法,但实际上也是一种趋向。
除此以外,他还谈到人工智能计算机设计的三大均衡性准则、AI基准设计四大指标以及如何经过并行办法减速大范围预训练模型。
0inkshbyeys.jpg
第一件事,HPC (高机能计算)和AI的运用是纷歧样的。
HPC的运用畛域次要有迷信和工程计算、天气预告、核聚变摹拟、航行器设计。它的运算精度是双精度浮点运算,64位乃至十二8位的,所以加减乘除做得很快,次要是这点不同。
人工智能计算机就是半精度的,乃至是定点的,8位的、16位的、32位的。
dgneinphkzn.jpg
因此这两台机器应该是纷歧样的,而人工智能计算机比来两年才开始有。因此咱们团队设计了一台能对比好地处置人工智能问题的计算机,到底长甚么模样?
咱们团队第一个奉献,是 人工智能计算机设计的均衡性准则。
第一个, 计算均衡设计。人工智能是处置单精度的或者定点的,你这台机器是否只有把定点的、单精度的做好就行了?但实际上也不是。虽然咱们次要斟酌半精度运算,然而也要斟酌到双精度运算的才能。
这两年上去有一个教训:
1)双精度与半精度的运算机能之比1:100对比好。
2)人工智能计算机不克不及只做CNN的,还要做大模型训练。
因此,提出来叫 变精度均衡设计思想,整体来讲还要减少通用计算。
第二, 网络均衡设计,既然这台机器很大,由上千个、上万个小机器连在一同,那末这个网络也要做得好。假如只做CNN那就好办,但还要斟酌训练。这样一来,网络怎么做均衡设计也十分首要。
第三, 存储,即IO子零碎设计。咱们知道当初每台机器都有SSD,怎么把每台SSD联结起来开成一个大的散布式文件零碎?这也是很要紧的。
因此,咱们提出来这三个均衡设计准则,已被得多公司采取。当初国际20多个城市陆续启动人工智能超算核心,让算力无处不在、触手可及,这其中大少数都用上了均衡设计这个设法。
目前行业有个趋向是 HPC+AI+BigData融会在一块。过来HPC是一台机器、AI是一台机器,大数据处置是第三台机器,这三个机器本人管本人,但当初这三台机器正在融会之中。
为什么这么说呢?
一方面,AI for Science的泛起,让HPC顺序中包孕了AI算法。因此HPC+AI的融会,成为刚性需要。
我已经开玩笑说,你当初要获HPC的畛域戈登贝尔奖,必需要有AI的算法,你没有AI的算法,不然奖都得不了。这是开玩笑的说法,但实际上也是一个趋向。
另外一方面,数据处置是AI的根底,数据和AI的融会也很天然。因此,我估量两年到四年,HPC、AI和BigData融会的办事器就会泛起。
ujjh0vodbhi.jpg
这是咱们小组第一个奉献,即人工智能计算机应该长成甚么模样。
AI基准设计要达四个指标
第二个奉献, 大范围人工智能算力基准评测顺序AIPerf。
甚么意思呢?传统HPC有个评测顺序Linpack,TOP500就是它评出来的,但它不克不及用于AI计算机评测。Linpack是用来测64位,乃至十二8位加减乘除做的快慢。当初人工智能计算机是16位、32位,乃至8位,这是彻底纷歧样。
3iao3yhd32k.jpg
因此,咱们需求做一个能回答这个问题的人工智能算力基准测试顺序。咱们但愿有个简略的评估目标,来判别哪家零碎的人工智能算力更强。
那当初有无相应的评测顺序呢?其实也有,但没有太适合的。
好比, DeepBench针对单个芯片,不合用于零件评测。 Mobile AI Bench针对的是挪动端硬件上的模型训练评测,不是全部零碎的。 MLPerf可扩展性欠好。因此,咱们抉择要本人做一个。
做个AI基准设计一定要达到这四个指标:
1、一致的分数。咱们但愿运转Benchmark出来一个值,就一个值就行了。而不是后果出来一个讲演,这样看起来很费力。
2、可变的问题范围。Benchmark能够测4个节点组成的机器,也能够测1000个、20000个,要范围可变,大范围的做起来也挺费力。
3、拥有实际的人工智能意义。不克不及随意说加减乘除,那就不克不及反应人工智能的问题。特别是要反应人工智能问题中的神经网络运算、天然言语处置才能。
4、评测顺序包孕须要的多机通讯,由于是一个大的零碎,由多机连起来的,需求有通讯。
最初,以清华大学为主的团队做了一个AIPerf来测试,于2020年十一月15日初次公布。咱们但愿人工智能计算机跟HPC有TOP 500同样,也有一个AIPerf 500。
当初它曾经延续三年每一年都公布排行榜,失掉了得多单位、企业的认可。
大范围预训练模型的三种并行减速办法
第三个奉献,百万亿参数超大范围训练模型的减速办法。
简略举个例子,学界至今已造成一个共鸣: 模型范围和模型成果呈正相干瓜葛。GPT有1.1亿参数,GPT-3有1750亿参数,悟道2.0有1.75万亿参数,咱们做的 BaGuaLu却有174万亿参数,应该说参数越多,成果越好,越接近人的智慧,但有个问题就是,训练数据越多,要求的算力也就越大。
vjwagbf34rg.jpg
再来看左侧这张图SAT (美国高考)工作的状况,假如模型参数达到100B (至关于1000亿个参数),那末模型实现SAT,就有70%的精确度。
因此, 探究更大参数量模型的成果,是拥有首要迷信意义的。
但模型越做越大,问题随之而来。当初国际得多单位模型都做得很好,但怎么把模型装置到一台机器下来,这有讲求。
举个例子,咱们就将 BaGuaLu模型装置到了新一代神威体系构造芯片上。
1zgmigeyzou.jpg
第一种, 数据并行。如果全部模型设两个节点,一个模型节点0、另外一个模型做的节点1,全部模型都做了数据并行,数据各一半要拿去训练学习,然而要留意训练完了当前不是终究的后果,由于只输出了一半的数据。因此这两头要AII-Reduce,AII-Reduce就做好多通讯,整件事件就会很繁杂。
第二种, 模型并行。将全部模型切成一半,一半模型节点0,一半模型节点1,数据是全部拿去训练。训练完了当前出来的后果也不是终究后果,由于只训练了一半的模型,出来还有AII-Gather,也是做通讯的。
第三种, 专家并行,跟数据并行、模型并行同样,一样要求通讯。
当初假如你只要一种办法,到底用哪一种并行办法呢?实际上这跟计算机构造无关。假如每台计算机之间通讯都十分快,那末用数据并行就能;假如你的通讯对比慢,就要斟酌模型并行或者专家并行。
因此,这些模型如何跟数据、机器实际状况婚配?这就波及到 软硬件协同这件事。
咱们在新一代神威机器上采取了 “拓扑感知的混合并行模式”。
详细而言,方才提到,该体系架构节点外部通讯很快,但超节点之间通讯对比慢。因此在混合并行模式下,一个通讯超节点外部,采取数据并行;超节点之间则采取专家并行或模型并行。
除此以外,还有内存大小、拜候内存等问题: 怎样让内存拜候的对比快,负载对比平衡?
做大范围模型训练时,均匀每小时都会产生一次硬件软件犯错,不要认为这个机器不成靠。目前这个程度曾经很好了。因此,个别都要做反省点,假如写的欠好,这件事件就有做三个小时,怎么能让它减速呢?最初咱们做到了10分钟就实现了。
当初,咱们把模型开源了,尤为是并行训练模型,将他们放在了开源零碎FastMOE里,当初失掉了工业界得多认可,像阿里巴巴的淘宝、天猫,腾讯的端到端言语模型,都用上了咱们的并行零碎。百度飞桨的MOE模块,也使用了咱们的FastMOE。
最初总结一下,一是 人工智能算力是以后人工智能畛域开展的症结。
二是团队对人工智能的三点小奉献:
1)提出了一种AI算力根底设施的架构战争衡设计准则,当初全国20多个城市的20多集体工智能超算核心根本上都驳回了咱们的设计思想。
2)做了评测,即人工智能基准测试顺序AIPerf,当初每一年都会公布500名榜单,在国际外发生了一定影响。
3)大模型怎么训练得快?特别是对于数据并行、模型并行,仍是专家并行。咱们做了一个库放在Open Source上。当初工业界都来用咱们的货色,使得大训练模型训练可以放慢。
因此,咱们团队对人工智能做了这三点小奉献,但愿可以推进人工智能的开展。
讲的不合错误之处请大家批判斧正。谢谢大家!
— 完—
「人工智能」、「智能汽车」微信社群邀你参加!
欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~ |
|