华人澳洲中文论坛

热图推荐

    阿里云CPU破局之战

    [复制链接]

    2022-11-3 21:59:20 76 0



    2015年1月,在业界一片谈论纷纭却又摸不着脑子的猜忌声中,亚马逊公司以3.7亿美元的惊人价钱买下了一家以色列芯片设计公司——Annapurna Labs。
    过后,Annapurna Labs成立仅4年,尚未对外公布任何一款芯片产品,乃至对本人的研发过程也始终讳莫如深。业界只知道它们正在试图研发一种新型芯片,试图让低功率的计算办事器和存储办事器疾速地运转数据。
    没人知道这家公司到底要干甚么,也没人知道亚马逊为何要买它。
    两年之后的亚马逊年度大会re:invent 2017上,当亚马逊初次正式向世界推出自研云办事器芯片名目Nitro、当那片印有Annapurna logo的芯片泛起在众人背后时,人们才豁然开朗。
    把视野拉回到国际,中国云计算公司在自研芯片这条路上已走进世界前列。在2022云栖大会上,阿里云宣告自研芯片倚天710已大范围运用,算力性价比大幅晋升超30%,将来两年阿里云20%的新增算力将使用自研CPU。
    自研芯片,已经是已经云厂商的殊途同归。


    一、从价钱战到技术战2015年,海内云计算市场的“价钱战”曾经近白热形态。
    在云计算开展早期,各家所能提供的大多都是基于下游硬件资源的IaaS办事,不同云厂商之间的产品差异不大。
    办理经济学告知咱们,当产品泛起同质化,价钱战无可防止。
    在海内,亚马逊(AWS)、谷歌、微软纷纭入局,以价钱战跑马圈地,抢夺更高的市场份额。AWS更是一度以每一年提价十二次的惊人节拍迅速扩大,市场竞争日趋剧烈。
    国际也不例外,自2015年起,阿里、腾讯等国际巨头纷纭减速扩大,市场多番酣战。
    但企业想要安康开展,终究只能回归技术,回归研发,以机能更强,体验更好的差别化产品感动用户。
    2018年,阿里宣告全资收购中国大陆独一的自主嵌入式CPU IP Core公司——中天微,并在随后宣告将达摩院芯片研发团队与中天微团队合并,成立平头哥半导体。
    2019年,阿里云首款自研办事器AI芯片含光800正式面世。
    历史老是类似的。
    近些年间,以AI机器学习、大范围视频处置、大范围数据处置等为首的高负载云计算运用日趋增多,其场景运算强度大、高并发、运用繁杂,对云计算厂商的办事品质提出了史无前例的极高要求,并倒逼办事器芯片减速开展。
    尤为是在“云原生”的概念提出后——传统IT时期的云计算更可能是为了适配以后的IT架构,进而适配各类运用。可在云原生时期里,多款运用自身就是“长在云上”的——如何按照这些云原生运用的需要打造更适宜其成长的土壤,成为了云厂商技术改革的头号小事。
    “云土壤”的革新既波及软件、架构、操作零碎,又波及网络、办事器、计算板卡,更会波及最为中心的算力来源——芯片。
    第三方芯片公司当然也在跟随技术提高不停推出新产品,但是,作为最相熟本身业务的人,云计算厂商最知道本人的业务有甚么差别化的需要,甚么样的芯片能力做到特定机能效力的最大化。
    正如阿里云弹性计算产品线担任人张献涛所言,“云计算做到一定范围的时分,你发现(自研芯片)非做不成。”
    固然,云计算中波及的芯片品种单一,各家着重点也有所不同。
    好比,阿里的含光800、谷歌的TPU、以及芯片厂商英特尔的Habana Gaudi 2、英伟达的H100等,都是着重于人工智能运用的计算芯片。另外,近些年间还有DPU、IPU、CIPU等新型数据核心处置器。
    云计算芯片市场的老玩家——CPU天然也不会缺席。
    近20年来,云办事器CPU市场长年被英特尔的x86架构统治,其市场份额乃至一度超过90%。
    CPU架构设计难度大、生态壁垒高,始终是芯片产业的集大成之作。
    但是,哪里有垄断,哪里就有应战者。从2008年开始,ARM就继续对办事器芯片市场发起了防御,惠普、AMD、博通、高通等芯片设计公司都曾陆续推出相干产品,惋惜大多折戟。
    但是,市场并未因一时的得胜而失去决心。2018年,ARM公布ARM Neoverse计算平台,瞄准了云计算办事器、HPC、AI与机器学习减速这几大场景。
    随后几年里,AWS推出Graviton系列办事器CPU;Ampere Computing推出80核Ampere Altra和十二8核Ampere Altra Max办事器CPU;国际厂商飞扬推出多款办事器CPU。
    作为国际云计算产业的领头玩家,阿里云也在2021年的云栖大会上推出了首款自研云原生处置器CPU——倚天710。
    这是阿里第一颗“为云而生”的CPU,包容了高达600亿个晶体管。它基于ARM v9架构打造,具有十二8核,并在寰球权威CPU基准测试集SPECint 2017上拿到了440分的超高成就,超越业界标杆20%。
    而在往年的2022云栖大会现场,阿里云智能总裁张建锋更是进一步宣告,通过一年的业务验证后,倚天710曾经实现大范围部署,不只撑持了阿里巴巴外部中心电商业务,还开始对汇量科技等迷信钻研、智能手机和互联网等多家企业提供办事。
    据张建锋引见,基于倚天710的云计算实例在数据库、大数据、视频编解码、AI推理等中心场景中的性价比晋升30%以上,单位算力功耗(耗电量)升高了60%以上。
    二、拿双十一“练手”:“豪侈”的生长史倚天710去年实现流片,往年就已实现大范围部署,并可以对外提供办事,其速度之快,在动辄以3-5年为迭代周期的芯片行业堪称惊人。
    这是一切云厂商自研芯片都具备的劣势——不必等候漫长的反馈周期。
    据张献涛引见,在传统的云计算厂商与第三方芯片供给商协作的过程当中,一个新的机能需要不只要通过单方的多番沟通验证,还要少则三四年、多则六七年能力变为理想。
    “高端畛域的技术突飞猛进,四年可能曾经翻天覆地了。”张献涛感慨道。
    因为英特尔等第三方芯片供给商的产品往往是通用的,需求合用于不同的用户的不同场景,其因此需求在不同的前提下重复测试。
    但关于云厂商自研的芯片来讲,只有确保这块芯片在自家数据核心里不乱运转便可,无须让它适配市面上的其余企业。
    并且,自家研发的芯片还有一项使人羡慕不已的“豪侈”享用。
    据张献涛回想,倚天710在去年流片回来后不久,就迎来了阿里一年一度的“双十一”大促。
    “双十一”这场全民购物狂欢,也是阿里IT一年一度的攻坚之战,其流量、强度、并发度都是寰球顶尖级别的难度。
    刚刚从襁褓中降生的倚天710,就这样被硬生生地推到了“双十一”火线,由芯片工程师团队利用“双十一”丰硕的数据库、存储、AI计算等高强度场景进行片面“天堂级”压力测试,有如武侠小说里七八个不世出的绝顶高手将终生所学整个教授给一个刚刚会走路的小孩,这小孩的生长速度毫不可与一般人同日而语。
    传统来讲,客户对芯片样片进行部署、测试、采集、反馈的周期长达半年乃至一年,芯片厂需求再按照客户反馈进行从新的设计与改版。
    而关于既是客户,又是供给商的云计算厂商而言,这往往就是发动一个跨部门会议的事件。
    以后,阿里云上曾经有百万台办事器,撑持了各行各业不同的运用场景,其繁杂、丰硕水平成为倚天710的绝佳养料,可以让芯片团队在最短期内失掉最片面的反馈数据。
    “咱们在往年春节前就曾经知道这颗芯片是靠谱的。后期的场景压测给了咱们很大的决心。”张献涛说。
    三、从1到100,生态破局之战正如上文所言,CPU设计难度大、生态壁垒高,始终是芯片产业的集大成之作。
    “设计难度大”对比好了解,但实际上,“生态壁垒高”才是困住CPU的真正妨碍。
    艰深来说,就是做一个CPU出来,没有那末难;让大家都能用好这个CPU,很难。
    就像安卓的软件不克不及在iOS平台运转,始终以来,运用、操作零碎、芯片架构都是高度绑定的。在电脑、手机等消费电子畛域,改换芯片架构是“伤筋动骨”的大手术,需求芯片厂商、零碎厂商、运用开发者的多方面严密合作,难度很高。
    但是在云计算畛域,自研芯片让问题变得简略了一些。
    早在2007年,阿里就开始启动了“飞天”云操作零碎的自研。随后,阿里云又陆续推出理解决虚构化机能消耗问题的“神龙”架构办事器、“盘古”散布式存储零碎、基于软硬一体的“洛神”云网络零碎、“磐久”液冷集装箱、开源办事器操作零碎“龙蜥”、云原生数据库PolarDB、AI一致平台灵杰……
    而在芯片畛域,阿里云也陆续推出了云根底设施处置器CIPU、云计算AI推理芯片“含光”系列、RISC-V处置器“玄铁”系列、RFID芯片“羽阵”系列、办事器CPU“倚天”系列……
    这些阿里的自研技术产品,从软件到硬件,简直掩盖了云计算的全部链路环节,让阿里将更换芯片架构的“伤筋动骨”环节所遇到的阻力尽量最小化。
    关于用户而言,从普通实例迁徙到倚天710云实例上的运用,则更是做到了“零代码”迁徙。用户仅需求做简略的从新部署/编译,便能轻松完成近乎无感的平滑迁徙。
    然而,用户为何要破费这些时间和精神去迁徙到一个全新的架构里呢?
    由于自研芯片所带来的机能晋升与本钱降落极为明显。
    张建锋透露,以后,倚天710云实例已在多家互联网科技公司大范围运用,掩盖了资料研发、广告推理、语音推理、电商买卖等多个畛域。
    其视频编码运用机能晋升80%、数据库机能晋升30%、AI推感性能进步了70%。最可贵的是,其算力性价比晋升了超过超30%,单位算力功耗升高了60%——真堪称“加量不加价”了。
    好比,汇量科技的广告推理精排业务机能和内网带宽上均完成了晋升,综合性价比晋升40%以上。
    汇量科技首席人工智能官朱小强就曾表现,跟着在线推理模型的不停降级,汇量科技对CPU机能和内网带宽要求更高,倚天710实例很好地知足了公司业务降级的新需要,做到了降本增效。
    在2022云栖大会上,张建锋进一步宣告,将来两年,阿里云有20%的新增算力未来自阿里云的自研芯片。


    四、一云多芯,重塑云计算产业早在去年,阿里云就宣告了其“一云多芯”的中心策略——以飞天操作零碎为中心,片面向下兼容x86、ARM、RISC-V等多种芯片架构,以及倚天、AMD、Ampere等多种CPU,并将其封装成间接面向用户的规范算力,既解决了CPU不兼容致使的云和软件开提问题,又让更多品种的芯片进入云计算生态。
    往年6月,阿里云正式公布了CIPU(Cloud infrastructure Processing Units)。这是一套阿里云用时7年所打造的云数据核心公用处置器,将来将代替CPU成为云计算的办理、减速计算、存储和网络资源核心。
    在本次云栖大会上,阿里云初次展示了“飞天+CIPU+CPU”的组分解果。据阿里透露,这一组合机能表示广泛优于业内同类产品,性价比可晋升30%以上。
    这不只是阿里在CIPU、倚天710等芯片上取得的效果,更是过来十几年间年,阿里云在自研操作零碎、数据库、存储、网络和芯片等软硬件技术上取得的协同效果。
    冰冻三尺,非一日之寒。阿里巴巴团体CFO武卫曾在寰球投资者大会上透露,这几年,阿里在技术和研发上的投入每一年都超过1000亿人民币。
    以后,从软件到硬件,从操作零碎到计算架构,从下层运用究竟层架构,以人工智能、虚构理想等为代表的新兴行业运用正倒逼云计算厂商不停加大技术自研力度,力求在如今的首要节点,捉住新一代云计算技术规范定义,失掉重塑云计算产业的话语权。
    如今,阿里云的野心已不单单是推出一款芯片、一个架构,更是承袭着“一云多芯”的策略指点,完全变革传统的以CPU为核心的云计算体系,凭借着“飞天+CIPU+丰硕算力来源”的新架构,将云计算产业推向新时期,从云效力最大化登程,重构数据核心,构建软硬一体的“新一代云计算体系”。


    张建锋在云栖大会上表现,以后以云计算为中心的新型计算体系,正在带来三大改革:
    1、云重构了全部IT硬件体系,数据核心、芯片、办事器等产业链产生粗浅变动;
    2、软件研发范式产生粗浅改革,Serverless、低代码、AI大模型开源等趋向,大幅晋升软件出产效力;
    3、云和端减速融会,算力从端转移上云,将来万物皆是计算机。
    在这个全新的云计算时期里,芯片、操作零碎、下层运用的原生融会已经是已经大势所趋。倚天710的推出与胜利大范围部署运用,既是这条技术改革路途之上的里程碑,又仅仅只是万里长征的一个开始。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    中级会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题36

    帖子45

    积分212

    图文推荐