华人澳洲中文论坛

热图推荐

    英伟达断供,国产GPU能打吗?

    [复制链接]

    2022-9-2 15:55:17 22 0



    图片来源@视觉中国
    文 | 光锥智能,作者|周文斌英伟达、AMD将断供中国高机能GPU芯片,卡脖子又有了新的把戏?
    近日,有媒体报导英伟达公布布告,表现之后向中国(包罗香港)和俄罗斯的客户出口两款高端GPU芯片A100和H100需求新的出口许可。一纸布告诱发人工智能和芯片半导体两个行业的两重地震。
    事实上,我国高端GPU芯片进口从2019年以来就始终有被限度,只是以前次要针对的厂商是AMD;而在运用场景上又以超算核心为主,所以企业和消费者在产品真个感知其实不强。
    而这一次规模扩张之后,许多互联网大厂也就遭到了影响。由于以A100芯片为例,其次要运用场景除了超算核心以外,还包罗云计算办事器、数据核心、AI训练等场景。
    实际上,跟着国际云计算、以及互联网企业在云端贮存,数据处置等方面需求的数据量愈来愈多。各大互联网企业、云厂商比来几年在AI芯片畛域也都早有规划。
    但国际大厂的AI芯片次要都是公用芯片,虽然在特定畛域可以完成对英伟达的部份代替,但从产业全局来看,高端场景短时间依然很难开脱对英伟达芯片的依赖。
    固然,这也其实不象征着国际云厂商和互联网大厂配置的英伟达办事器就要宕机,芯谋钻研剖析师商君曼对科创板日报表现,本次被限度的芯片处于一个很高真个地位,对国际企业的影响无限。
    而在一些更广泛的运用场景,除了曾经具有的部份国产GPU芯片能够代替以外,英伟达的一些低端产品其实不在限度规模内。国际大厂其实还有至关的时间能够展转腾挪。
    01 GPU为什么卡脖子?
    首先要讲分明的是,这次针对英伟达被限度的GPU并非惯例意义上的显卡,而是十分高真个商用芯片,即A100和H100。这两款芯片都是专门针对 AI、数据剖析和 HPC 运用场景研发的。
    其中,A100芯片是2020年5月英伟达在GTC2020上公布的产品。A100是一块 3D 重叠芯片,采取安培(Ampere)架构,运用了过后台积电最早进的7nm工艺,具有 540 亿个晶体管,GPU 的最大功率达到了 400W,算力比上一代采取 Volta 架构的Tesla V100晋升了20倍,号称过后寰球最大的7nm芯片。
    H100则是一款针对大模型专门优化的产品,在往年3月份在GTC大会上才公布,采取了最新的Hopper构架,运用的也是台积电最早进的4nm工艺,具有800亿个晶体管,GPU最大功率800W。
    除此以外,H100还参加了全新的Transformer Engine和可扩展性更高的Nvidia NVLink互连功用,用于晋升大型AI言语模型、深度保举零碎等等。固然,目前H100还未正式进入商用。


    图片来源:anandtech
    目前,国际GPU高端场景的GPU运用根本上都由英伟达的A100掩盖,乃至往年3月份H100公布时,国际主流厂商也都曾经预约。
    好比,英伟达A100公布时,首批运用的OEM厂商包罗浪潮、联想等企业;云办事公司也有阿里、腾讯、百度等主流厂商;而H100公布时,阿里云、百度云和腾讯云等厂商也都方案提供基于H100的实例。8月底,英伟达在第三财季瞻望上提到,这一块业务预计在中国有4亿美元的潜伏销售。
    这个状况在国外也是如斯,包罗AWS、Google Cloud、微软Azure、Oracle Cloud;或者思科、惠普等国内大厂采取的也都是英伟达的产品。目前,英伟达在数据核心 GPU 市场占比超过 80%,在云端训练市场上占比 90%,云端推理市场上占比 60%。
    简略来讲,就犹如高通骁龙系列关于智能手机机能的抉择性同样,英伟达的高端GPU芯片抉择了云办事的机能和性价比,因此被国际外云厂商普遍采取。
    固然,被普遍采取的另外一个潜台词,实际上是没有可代替的产品(等同机能上)
    好比在高机能计算方面,借助HBM2e每秒超过2TB的带宽和大容量内存,科研人员能够在A100上将本来要破费10小时的双精度摹拟进程缩短到4小时以内。但在国际,目前没有芯片公司可以完成FP64的技术才能。
    显然这一次美国对先进GPU的出口限度也将对中国的云厂商带来十分严重的影响。但从另外一方面来讲,这对中国自主GPU的开展也何尝不是一件坏事。
    02 大厂造芯能否自力更生?
    虽然这次限度从天而降,但国际相干的云厂商和互联网大厂也并不是全无筹备。
    早在几年前,跟着国际云计算、以及互联网企业在云端贮存,数据处置等方面需求的数据量愈来愈多。各大互联网企业、云厂商就曾经在AI芯片畛域开始规划了。
    好比阿里在2019年公布了AI芯片含光800,百度在2020年量产了第一代AI芯片昆仑;略微慢一点的腾讯也在2021年公布了视频处置芯片“桑田”和AI芯片“紫霄”。往年7月份,字节在“2022 火山引擎原能源大会”上也正式确认了其在自主造芯方面的规划。目前,字节的芯片研发曾经涉足视频平台、信息和文娱运用等。
    虽然各大厂商进入芯片畛域的时间有前后,但在详细的标的目的和运用场景上,大家的举措反而是出奇统一的。目前为止,国际互联网大厂研发的芯片,或者标的目的都集中在云计算,视频图象处置等方面的公用或者通用芯片上。
    固然,大厂造芯除理解决技术自主问题以外,更首要的还在于本钱和效力。
    好比2019年阿里拍立淘商品库天天新增 10 亿商品图片,使用传统 GPU 算力辨认需求 1 小时,但阿里同年推出的AI芯片“含光800”运用之后,这一时间被缩短到5分钟。
    同时,自研芯片还能极大水平节俭云办事器的本钱。
    好比过来十年在云办事市场始终放弃当先的亚马逊就由于经过自研办事器芯片Graviton交换英伟达来继续升高价钱。据The Information报导,亚马逊的客户表现,他们经过租用Graviton办事器节俭了10%~40%的计算本钱。
    事实上,不只是阿里和亚马逊,如今的互联网大厂其实都面临着数据爆炸来带的处置效力、能耗以及本钱的问题。 对外提供云办事的企业更需求面对市场的竞争,不合错误外提供云办事企业也要斟酌本身效力的晋升。
    好比当初的抖音,主屏曾经从过来的底部4栏,顶部两栏裁减究竟部4栏,顶部4栏等多个类目。而繁杂的内容面前,往往象征着宏大的数据处置。


    无数据显示,2017年抖音租借的办事器仅3万台,但到了2020就达到了42万台。除此以外,这一年字节在美国弗吉尼亚租还有一个可包容10万台办事器的数据核心。
    字节跳动主管火山引擎、数据中台的副总裁杨震原表现,如今字节 95% 的业务曾经跑在本人的数据核心上。宏大的数据处置成为推进字节自研芯片的中心能源。
    除了知足外部需求以外,以阿里、百度为代表的大厂其实也在将自研芯片向外进行“售卖”。好比阿里“含光800”虽然不合错误外售卖,但张建峰也提到:“含光 800 将经过阿里云对外输入 AI 算力,将来企业能够经过阿里云获得含光 800 的算力。”
    基于云的芯片经过云走向市场。这其实也是为何各大厂商的芯片次要都是自用的缘故。固然,这类自用也并非绝对的,毕竟当初各大厂商其实都在经过云办事的形式,将本身的才能分享给其余玩家。
    好比张建峰也提到:“含光 800 将经过阿里云对外输入 AI 算力,将来企业能够经过阿里云获得含光 800 的算力。基于含光 800 的阿里云性价比晋升了 100%。”
    据调研机构Canalys公布的2022年一季度中国云计算市场讲演显示,中国云市场整体范围达到73亿美元,同比增长21%。阿里云以36.7%的市场份额放弃当先地位,华为云、腾讯云、百度智能云分别以18.0%、15.7%、8.4%的市场份额位居第二至第四位。


    从云办事分类来看,目前IaaS的市场份额最大,2021年占比超过62.14%。但如今,IaaS产品的竞争其实也趋势于同质化,在这样的配景下,价钱战成为IaaS产品竞争的次要形式。2020年6月,字节的火山引擎上市后就喊出了“极致性价比”的标语。
    要打价钱战,关于厂商来讲,条件就是要升高本钱。而自研芯片就是升高本钱的本钱的最佳形式。
    在国外,如亚马逊、谷歌等大厂,率先开始了经过芯片自研来升高本钱。好比,自2015年亚马逊收购Annapurna开启芯片自研之路以来,AWS就前后历经了百余次提价。在国际,火山引擎总经理谭待也曾表现,完成极致性价比的形式就是“全栈自研、软硬一体”。
    举个简略的例子,关于宏大的云办事器而言,电费其实占了日常经营本钱的很大一部份,而抉择电费的症结要素又在于办事器运转的功耗。
    针对这个问题,阿里推出的首款通用型CPU“倚天710”采取的就是以低功耗为特征的ARM构架,并在设计上也采取了多核互联网和芯片间互联等低功耗技术。从阿里发布的数据来看,“倚天710”的能效比要比业界标杆晋升50%以上。
    去年底腾讯云与智慧事业群 CEO 汤道生在承受《中国企业家》采访时称,腾讯造芯的中心思绪是基于本身需要,要末升高本钱,要末更高效地使用根底设施。
    总体而言,业内造芯的次要目的就是为了降本增效,只管自研芯片的后期研发投入对比高,但在范围化投产后,单片本钱一定比集中推销低。”一名同属互联网大厂芯片从业者向虎嗅解释。


    来源:周天财经
    03 是风险,也是机遇
    除了大厂自研AI芯片以外,比来几年跟着国际芯片半导体产业的蓬勃开展,也随之突起了一大批的GPU芯片企业,好比芯原微电子、燧原科技、摩尔线程、壁仞科技等等。其中如老牌CPU厂商龙芯、海光更是都曾经完成了上市。
    不外,虽然业内人士也指出,计算芯片最大的门坎并不是硬件,而是软件。假如一个芯片没有与之配套的软件生态,则很难真的造成大面积的运用。而这其实也是许多国际GPU公司的产品很难获取客户认可的缘故。
    但这两年,国际许多GPU芯片公司其实也在飞速生长,海光DCU8系列Z100产品数据接近英伟达的MI100产品,同时兼容CUDA生态而被市场普遍看好。
    除此以外,国产GPU还面临更多应战。好比以前产量的问题,虽然海光的芯片机能获取了市场的认可,但因为其出货量缺乏,以及其次要产能又供应给国度的超算核心,以致于市场上能拿到海光的芯片其实其实不多。
    另外一方面也在于市场,在以前海内高端GPU芯片购买疏通的时分,国际芯片其实很好受到客户的认可,大家广泛的选择都是购买最早进、不乱的产品。而这一次国外先进的GPU遭到限度之后,其实也在提示国际的客户从新斟酌内部的实际状况,从而也是给国产GPU企业进入客户供给链提供了一次时机。
    认证为百度资深零碎工程师的答主lychee在知乎提到,“以前有 30% 的机能晋升可能都不会斟酌(生态不行),当初有 30% 的机能差距可能都不是问题了,毕竟刀架在脖子上,先用上再说。”
    除此以外,在摩尔定律“生效”的大配景下,世界芯片半导体亟需建设一套新的规定,这是中国芯片半导体史无前例的时机。
    目前英伟达被限度的A100芯片采取的是7nm制程,以前华登国内合伙人王林在于光锥智能的交流中就提到:“将来5nm、3nm的制程工艺可能还存在一些难题,但7nm制程工艺冲破只是时间问题。”
    而超过7nm之后,制程工艺晋升所带来的能效晋升与为了达到这个制程所付出的本钱就开始不可反比了。边际效益递加,企业投入重金研发先进制程的能源也开始缺乏。
    早在2018年,国内芯片巨头格罗方德就宣告保持7nm的研发,缘故就是本钱回升到无奈接受的境地。而作为国内芯片代工巨头的台积电,比来也在3nm制程上也遇到了难题。
    根据台积电的布局,3nm工艺的节点共有 N3、N3E、N3P、N3X 四种工艺。而目前市场却有动静,称由于本钱过高,台积电也方案保持第一代3nm工艺,转而投入到N3E的研发中。
    与国外芯片半导体执着于更先进的制程不同,国际却曾经开始在其余方面另辟蹊径,好比更先进的封装工艺,异构芯片等畛域。而在这些方面,中国实际上是有弯道超车的时机的,由于大家都在一个起跑线上。
    在国际,壁仞科技的GPU芯片是率先采取Chiplet技术的芯片。
    8月初,壁仞科技在上海公布了首款通用GPU BR100,该芯片集成为了770亿个晶体管,其16位(半精度,英伟达最早进的芯片达到64位,双精度)浮点算力能达到1000T以上、8位定点算力能达到2000T以上,单芯片峰值算力达到了每秒千万次计算(PFLOPS)的级别。


    虽然这款芯片只要半精度级别,但作为比较一样7nm制程的英伟达A100芯片在8位和16位定点的算力程度,壁仞科技的BR100曾经超过了英伟达。
    壁仞科技联结开创人、总裁徐凌杰表现,BR100系列芯片以及相应硬件计算产品将于往年年底量产。同时,壁仞科技也与包罗浪潮信息在内的多家办事器厂商达成为了协作。
    所以说,虽然对咱们来讲,内部环境愈来愈严苛,但中国在芯片畛域依然在不乱的提高。给国际的企业一些时间,置信绝大部份问题都可以逐渐有序的被解决。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题22

    帖子29

    积分119

    图文推荐