清华郑纬民院士：AI for Science的泛起，让高机能计算与AI的融会成为刚需｜MEET2023

xmgbush

原标题：清华郑纬民院士：AI for Science的泛起，让高机能计算与AI的融会成为刚需｜MEET2023
杨净整顿自 MEET2023
量子位 | 大众号 QbitAI
算力的需要，远比以来往得更加猛烈。乃至有人直呼： 得算力者得将来。
元宇宙、AIGC、AI for Science的涌现，又给高机能计算（HPC）平增了好几把火。
在诸多应战与机遇共存交错确当下，这一畛域泰斗 中国工程院院士、清华大学计算机迷信与技术系郑纬民，在 MEET2023智能将来大会上，分享了本人的见地和思考。
估量将来两年到四年， HPC （高机能计算）+AI+BigData融会 的办事器就会泛起。
  AI for Science的泛起，让HPC+AI的融会成为刚性需要；而数据处置又是AI的根底，数据和AI的融会也很天然。
估量将来两年到四年， HPC （高机能计算）+AI+BigData融会 的办事器就会泛起。
AI for Science的泛起，让HPC+AI的融会成为刚性需要；而数据处置又是AI的根底，数据和AI的融会也很天然。
乃至他还开玩笑说，当初要获HPC畛域的戈登贝尔奖，必需要有AI的算法。你没有AI的算法，不然奖都得不了。
虽然这是玩笑说法，但实际上也是一种趋向。
除此以外，他还谈到人工智能计算机设计的三大均衡性准则、AI基准设计四大指标以及如何经过并行办法减速大范围预训练模型。

0inkshbyeys.jpg

第一件事，HPC （高机能计算）和AI的运用是纷歧样的。
HPC的运用畛域次要有迷信和工程计算、天气预告、核聚变摹拟、航行器设计。它的运算精度是双精度浮点运算，64位乃至十二8位的，所以加减乘除做得很快，次要是这点不同。
人工智能计算机就是半精度的，乃至是定点的，8位的、16位的、32位的。

dgneinphkzn.jpg

因此这两台机器应该是纷歧样的，而人工智能计算机比来两年才开始有。因此咱们团队设计了一台能对比好地处置人工智能问题的计算机，到底长甚么模样？
咱们团队第一个奉献，是 人工智能计算机设计的均衡性准则。
第一个， 计算均衡设计。人工智能是处置单精度的或者定点的，你这台机器是否只有把定点的、单精度的做好就行了？但实际上也不是。虽然咱们次要斟酌半精度运算，然而也要斟酌到双精度运算的才能。
这两年上去有一个教训：
1）双精度与半精度的运算机能之比1：100对比好。
2）人工智能计算机不克不及只做CNN的，还要做大模型训练。
因此，提出来叫 变精度均衡设计思想，整体来讲还要减少通用计算。
第二， 网络均衡设计，既然这台机器很大，由上千个、上万个小机器连在一同，那末这个网络也要做得好。假如只做CNN那就好办，但还要斟酌训练。这样一来，网络怎么做均衡设计也十分首要。
第三， 存储，即IO子零碎设计。咱们知道当初每台机器都有SSD，怎么把每台SSD联结起来开成一个大的散布式文件零碎？这也是很要紧的。
因此，咱们提出来这三个均衡设计准则，已被得多公司采取。当初国际20多个城市陆续启动人工智能超算核心，让算力无处不在、触手可及，这其中大少数都用上了均衡设计这个设法。
目前行业有个趋向是 HPC+AI+BigData融会在一块。过来HPC是一台机器、AI是一台机器，大数据处置是第三台机器，这三个机器本人管本人，但当初这三台机器正在融会之中。
为什么这么说呢？
一方面，AI for Science的泛起，让HPC顺序中包孕了AI算法。因此HPC+AI的融会，成为刚性需要。
我已经开玩笑说，你当初要获HPC的畛域戈登贝尔奖，必需要有AI的算法，你没有AI的算法，不然奖都得不了。这是开玩笑的说法，但实际上也是一个趋向。
另外一方面，数据处置是AI的根底，数据和AI的融会也很天然。因此，我估量两年到四年，HPC、AI和BigData融会的办事器就会泛起。

ujjh0vodbhi.jpg

这是咱们小组第一个奉献，即人工智能计算机应该长成甚么模样。
AI基准设计要达四个指标
第二个奉献， 大范围人工智能算力基准评测顺序AIPerf。
甚么意思呢？传统HPC有个评测顺序Linpack，TOP500就是它评出来的，但它不克不及用于AI计算机评测。Linpack是用来测64位，乃至十二8位加减乘除做的快慢。当初人工智能计算机是16位、32位，乃至8位，这是彻底纷歧样。

3iao3yhd32k.jpg

因此，咱们需求做一个能回答这个问题的人工智能算力基准测试顺序。咱们但愿有个简略的评估目标，来判别哪家零碎的人工智能算力更强。
那当初有无相应的评测顺序呢？其实也有，但没有太适合的。
好比， DeepBench针对单个芯片，不合用于零件评测。 Mobile AI Bench针对的是挪动端硬件上的模型训练评测，不是全部零碎的。 MLPerf可扩展性欠好。因此，咱们抉择要本人做一个。
做个AI基准设计一定要达到这四个指标：
1、一致的分数。咱们但愿运转Benchmark出来一个值，就一个值就行了。而不是后果出来一个讲演，这样看起来很费力。
2、可变的问题范围。Benchmark能够测4个节点组成的机器，也能够测1000个、20000个，要范围可变，大范围的做起来也挺费力。
3、拥有实际的人工智能意义。不克不及随意说加减乘除，那就不克不及反应人工智能的问题。特别是要反应人工智能问题中的神经网络运算、天然言语处置才能。
4、评测顺序包孕须要的多机通讯，由于是一个大的零碎，由多机连起来的，需求有通讯。
最初，以清华大学为主的团队做了一个AIPerf来测试，于2020年十一月15日初次公布。咱们但愿人工智能计算机跟HPC有TOP 500同样，也有一个AIPerf 500。
当初它曾经延续三年每一年都公布排行榜，失掉了得多单位、企业的认可。
大范围预训练模型的三种并行减速办法
第三个奉献，百万亿参数超大范围训练模型的减速办法。
简略举个例子，学界至今已造成一个共鸣： 模型范围和模型成果呈正相干瓜葛。GPT有1.1亿参数，GPT-3有1750亿参数，悟道2.0有1.75万亿参数，咱们做的 BaGuaLu却有174万亿参数，应该说参数越多，成果越好，越接近人的智慧，但有个问题就是，训练数据越多，要求的算力也就越大。

vjwagbf34rg.jpg

再来看左侧这张图SAT （美国高考）工作的状况，假如模型参数达到100B （至关于1000亿个参数），那末模型实现SAT，就有70%的精确度。
因此， 探究更大参数量模型的成果，是拥有首要迷信意义的。
但模型越做越大，问题随之而来。当初国际得多单位模型都做得很好，但怎么把模型装置到一台机器下来，这有讲求。
举个例子，咱们就将 BaGuaLu模型装置到了新一代神威体系构造芯片上。

1zgmigeyzou.jpg

第一种， 数据并行。如果全部模型设两个节点，一个模型节点0、另外一个模型做的节点1，全部模型都做了数据并行，数据各一半要拿去训练学习，然而要留意训练完了当前不是终究的后果，由于只输出了一半的数据。因此这两头要AII-Reduce，AII-Reduce就做好多通讯，整件事件就会很繁杂。
第二种， 模型并行。将全部模型切成一半，一半模型节点0，一半模型节点1，数据是全部拿去训练。训练完了当前出来的后果也不是终究后果，由于只训练了一半的模型，出来还有AII-Gather，也是做通讯的。
第三种， 专家并行，跟数据并行、模型并行同样，一样要求通讯。
当初假如你只要一种办法，到底用哪一种并行办法呢？实际上这跟计算机构造无关。假如每台计算机之间通讯都十分快，那末用数据并行就能；假如你的通讯对比慢，就要斟酌模型并行或者专家并行。
因此，这些模型如何跟数据、机器实际状况婚配？这就波及到 软硬件协同这件事。
咱们在新一代神威机器上采取了 “拓扑感知的混合并行模式”。
详细而言，方才提到，该体系架构节点外部通讯很快，但超节点之间通讯对比慢。因此在混合并行模式下，一个通讯超节点外部，采取数据并行；超节点之间则采取专家并行或模型并行。
除此以外，还有内存大小、拜候内存等问题： 怎样让内存拜候的对比快，负载对比平衡？
做大范围模型训练时，均匀每小时都会产生一次硬件软件犯错，不要认为这个机器不成靠。目前这个程度曾经很好了。因此，个别都要做反省点，假如写的欠好，这件事件就有做三个小时，怎么能让它减速呢？最初咱们做到了10分钟就实现了。
当初，咱们把模型开源了，尤为是并行训练模型，将他们放在了开源零碎FastMOE里，当初失掉了工业界得多认可，像阿里巴巴的淘宝、天猫，腾讯的端到端言语模型，都用上了咱们的并行零碎。百度飞桨的MOE模块，也使用了咱们的FastMOE。
最初总结一下，一是 人工智能算力是以后人工智能畛域开展的症结。
二是团队对人工智能的三点小奉献：
1）提出了一种AI算力根底设施的架构战争衡设计准则，当初全国20多个城市的20多集体工智能超算核心根本上都驳回了咱们的设计思想。
2）做了评测，即人工智能基准测试顺序AIPerf，当初每一年都会公布500名榜单，在国际外发生了一定影响。
3）大模型怎么训练得快？特别是对于数据并行、模型并行，仍是专家并行。咱们做了一个库放在Open Source上。当初工业界都来用咱们的货色，使得大训练模型训练可以放慢。
因此，咱们团队对人工智能做了这三点小奉献，但愿可以推进人工智能的开展。
讲的不合错误之处请大家批判斧正。谢谢大家！
— 完—
「人工智能」、「智能汽车」微信社群邀你参加！
欢送关注人工智能、智能汽车的小火伴们参加交流群，与AI从业者交流、切磋，不错过最新行业开展&技术停顿。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 ?关注我，记得标星哦～
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~

华人澳洲中文论坛

热图推荐

清华郑纬民院士：AI for Science的泛起，让高机能计算与AI的融会成为刚需｜MEET2023

发表回复

浏览过的版块

xmgbush
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

清华郑纬民院士：AI for Science的泛起，让高机能计算与AI的融会成为刚需｜MEET2023

发表回复

浏览过的版块

xmgbush 关注TA

图文推荐

xmgbush
关注TA