华人澳洲中文论坛

热图推荐

    中国大厂争取AI入场券!传字节向英伟达订购超越10亿美元GPU(组图)

    [复制链接]

    2023-6-14 11:26:48 17 0

    本文转载自晚点LatePost,仅代表原出处和原作者观念,仅供参考浏览,不代表本网态度和立场。
  • 全世界都在抢算力,中国大公司更急切。动静称字节往年向英伟达订购了超过10亿美元的GPU;一名接近英伟达的人士称,字节到货和没到货的A100与H800共计有10万块。
  • 一位云厂商人士称,字节、阿里等大公司次要是和英伟达原厂间接谈推销,代理商和二手市场难以知足他们的宏大需要。英伟达会按目录价,按照推销范围谈一个折扣。
  • 英伟达GPU目前的不成代替性,源自卑模型的训练机制。当初只要A100、H100能提供预训练所需的计算效力,它们看起来低廉,反倒是最昂贵的选择。

    epxhodqvukh.jpg

    epxhodqvukh.jpg

    2022 年下半年,ChatGPT 爆火的同时,硅谷著名危险资本 a16z 走访了数十家 AI 守业公司和大科技公司。他们发现,守业公司转手就把 80%-90% 的初期融资款送给了云计算平台,以训练本人的模型。他们预算,即使这些公司的产品成熟了,每一年也得把 10%-20% 的营收送给云计算公司。至关于一笔 “AI 税”。
    这带来了在云上提供模型才能和训练办事,把算力租给其它客户和守业公司的大市场。仅在国际,当初就最少无数十家守业公司和中小公司在自制繁杂大言语模型,他们都得从云计算平台租 GPU。据 a16z 测算,一个公司一年的 AI 运算开支只要超过 5000 万美元,才有足够的范围效应撑持本人批量推销 GPU。
    据《晚点 LatePost》理解,往年春节后,具有云计算业务的中国各互联网大公司都向英伟达下了大单。字节往年向英伟达订购了超过 10 亿美元的 GPU,另外一家大公司的定单也最少超过 10 亿元人民币。
    仅字节一家公司往年的定单可能已接近英伟达去年在中国销售的商用 GPU 总和。去年 9 月,美国政府公布对 A100、H100(英伟达最新两代数据核心商用 GPU) 的出口控制时,英伟达曾回应称这可能影响去年四季度它在中国市场的 4 亿美元(约合 28 亿元人民币)潜伏销售。以此推算,2022 年全年英伟达数据核心 GPU 在中国的销售额约为 100 亿元人民币。
    比拟海内巨头,中国大科技公司推销 GPU 更加急切。过来两年的降本增效中,一些云计算平台增加了 GPU 推销,贮备缺乏。另外,谁也不敢包管,明天能买的高机能 GPU,今天会不会就遭到新的限度。

    rjeklcyiq2n.jpg

    rjeklcyiq2n.jpg

    01 从砍单到加购,同时外部腾挪
    往年初以前,中国大型科技公司对 GPU 的需要还不温不火。
    GPU 在中国大型互联网科技公司中次要有两个用处:一是对内反对业务和做一些前沿 AI 钻研,二是把 GPU 放到云计算平台上对外售卖。
    一位字节人士告知《晚点 LatePost》,2020 年 6 月 OpenAI 公布 GPT-3 后,字节就曾训练了一个数十亿参数的生成式言语大模型,过后次要使用的 GPU 是 A100 前代产品 V100。因为参数范围无限,这个模型生成才能个别,字节过后看不到它的商业化可能性,“ROI(投资报答率) 算不外来”,这次尝试不了了之。
    阿里也曾在 2018-2019 年踊跃推销 GPU。一名阿里云人士称,过后阿里的推销量最少达到上万块范围,购买的型号次要是 V100 和英伟达更早前公布的 T4。不外这批 GPU 中只要约非常之一给到了达摩院用作 AI 技术研发。2021 年公布万亿参数大模型 M6 后,达摩院曾披露训练 M6 使用了 480 块 V100。
    阿里过后购买的 GPU,更多给到了阿里云用于对外租赁。但包罗阿里云在内,一批中国云计算公司都高估了中国市场的 AI 需要。一名科技投资人称,大模型热潮以前,国际次要云厂商上的 GPU 算力不是紧缺,而是愁卖,云厂商乃至得提价卖资源。去年阿里云前后提价 6 次,GPU 租用价降落超两成。
    在降本增效,寻求 “有品质的增长” 与利润的配景下,据理解,阿里在 2020 年之后膨胀了 GPU 推销范围,腾讯也在去年底砍繁多批英伟达 GPU。
    但是没过量久后的 2022 年终,ChatGPT 改动了一切人的看法,共鸣很快达成:大模型是不容错过的大时机。
    各公司开创人亲身关注大模型停顿:字节跳动开创人张一鸣开始看人工智能论文;阿里巴巴董事局主席张勇接手阿里云,在阿里云峰会公布阿里大模型停顿时称,“一切行业、运用、软件、办事,都值得基于大模型才能重做一遍”。
    一位字节人士称,过来在字节外部请求推销 GPU 时,要阐明投入产出比、业务优先级和首要性。而当初大模型业务是公司策略级别新业务,临时算不清 ROI 也必需投入。
    研发本人的通用大模型只是第一步,各公司的更大指标是推出提供大模型才能的云办事,这是真正能够婚配投入的大市场。
    微软的云办事 Azure 在中国云计算市场本没有太强存在感,入华十年来次要办事跨国公司的中国业务。但当初客户得排队等候,由于它是 OpenAI 商业化的独一云代理商。
    阿里在 4 月的云峰会上,再次强调 MaaS(模型即办事)是将来云计算趋向,在凋谢自研的通用根底模型 “通义千问” 测试以外,还公布了一系列帮忙客户在云上训练、使用大模型的工具。不久后腾讯和字节火山引擎也前后公布本人的新版训练集群办事。腾讯称用新一代集群训练万亿参数的混元大模型,时间可被紧缩到 4 天;字节称它们的新集群反对万卡级大模型训练,国际数十家做大模型的企业,少数已在使用火山引擎。
    一切这些平台使用的要末是英伟达 A100、H100 GPU,要末是去年禁令后英伟达专门推出的减配版 A800、H800,这两款处置器带宽分别是原版的约 3/4 和约一半,避开了高机能 GPU 的控制规范。
    环抱 H800 和 A800,中国科技大公司开始了新一轮下单竞争。
    一位云厂商人士称,字节、阿里等大公司次要是和英伟达原厂间接谈推销,代理商和二手市场难以知足他们的宏大需要。
    英伟达会按目录价,按照推销范围谈一个折扣。据英伟达官网,A100 售价为 1 万美元 / 枚(约 7.1 万元人民币),H100 售价为 3.6 万美元 / 枚(约 25.7 万元人民币);据理解,A800 和 H800 售价略低于原版。
    中国公司能否抢到卡,更可能是看商业瓜葛,好比以往是否英伟达的大客户。“你是和中国英伟达谈,仍是去美国找老黄(黄仁勋,英伟达开创人、CEO)间接谈,都有差异。” 一名云厂商人士说。
    部份公司也会和英伟达进行 “业务协作”,在购买热门的数据核心 GPU 时,也购买其它产品,以争夺优先供给。这就像爱马仕的配货,假如你想买到抢手的包,往往也得搭配几万元的衣服、鞋履。
    综合咱们获取的行业信息,字节往年的新下单举措相对于保守,超过 10 亿美元级别。
    一名接近英伟达的人士称,字节到货和没到货的 A100 与 H800 共计有 10 万块。其中 H800 往年 3 月才开始投产,这部份芯片应来自往年的加购。据理解,以当初的排产进度,部份 H800 要到往年底能力交货。
    字节跳动 2017 年开始建立本人的数据核心。已经的数据核心更依赖顺应一切计算的 CPU,直到 2020 年,字节推销英特尔 CPU 的金额还高于英伟达 GPU。字节推销量的变动,也反应了如今大型科技公司的计算需要中,智能计算对通用计算的赶超。
    据理解,某互联网大厂往年最少已给英伟达下了万卡级别定单,按目录价预算价值超 10 亿元人民币。
    腾讯则率先宣告已用上 H800,腾讯云在往年 3 月公布的新版高机能计算办事中已使用了 H800,并称这是国际首发。目前这一办事已对企业客户凋谢测试请求,这快于大部份中国公司的进度。
    据理解,阿里云也在往年 5 月对内提出把 “智算战斗” 作为往年的头等战斗,并设立三大指标:机器范围、客户范围和营收范围;其中机器范围的首要目标就是 GPU 数量。
    新的 GPU 到货前,各公司也在经过外部腾挪,优先反对大模型研发。
    能一次释放较多资源的做法是砍掉一些没那末首要,或短时间看不到明白前景的标的目的。“大公司有好多半死不活的业务占着资源。” 一名互联网大公司 AI 从业者说。
    往年 5 月,阿里达摩院裁撤自动驾驶试验室:300 多名员工中,约 1/3 划归菜鸟技术团队,其他被裁,达摩院再也不保存自动驾驶业务。研发自动驾驶也需求用高机能 GPU 做训练。这一调剂可能与大模型无间接瓜葛,但的确让阿里获取了一批 “自在 GPU”。
    字节和美团,则间接从给公司带来广告支出的商业化技术团队那里匀 GPU。
    据《晚点 LatePost》理解,往年春节后不久,字节把一批原方案新增给字节商业化技术团队的 A100 匀给了 TikTok 产品技术担任人白文佳。白文佳正在领导字节大模型研发。而商业化技术团队是反对抖音广告保举算法的中心业务部门。
    美团在往年一季度摆布开始开发大模型。据理解,美团不久前从多个部门调走了一批 80G 显存顶配版 A100,优先供应大模型,让这些部门改用配置更低的 GPU。
    财力远不如大平台富余的 B 站对大模型也有布局。据理解,B 站此前已贮备了数百块 GPU。往年,B 站一方面继续加购 GPU,一方面也在协调各部门匀卡给大模型。“有的部门给 10 张,有的部门给 20 张。” 一名接近 B 站的人士称。
    字节、美团、B 站等互联网公司,本来反对搜寻、保举的技术部门个别会有一些 GPU 资源冗余,在不挫伤原有业务的条件下,他们当初都在 “把算力水分挤出来”。
    不外这类拆东补西的做法能获取的 GPU 数量无限,训练大模型所需的大头 GPU 仍是得靠各公司过来的积攒和等候新 GPU 到货。
    02 全世界都在抢算力
    对英伟达数据核心 GPU 的比赛也产生在寰球规模。不外海内巨头少量购买 GPU 更早,推销量更大,近些年的投资相对于延续。
    2022 年,Meta 和甲骨文就已有对 A100 的大投入。Meta 在去年 1 月与英伟达协作建成 RSC 超级计算集群,它包孕 1.6 万块 A100。同年 十一 月,甲骨文宣告购买数万块 A100 和 H100 搭建新计算核心。当初该计算核心已部署了超 3.27 万块 A100,并陆续上线新的 H100。
    微软自从 2019 年第一次投资 OpenAI 以来,已为 OpenAI 提供数万块 GPU。往年 3 月,微软又宣告已帮忙 OpenAI 建立了一个新计算核心,其中包罗数万块 A100。Google 在往年 5 月推出了一个具有 2.6 万块 H100 的计算集群 Compute Engine A3,办事想本人训练大模型的公司。
    中国大公司当初的举措和心态都比海内巨头更急切。以百度为例,它往年向英伟达新下的 GPU 定单高达上万块。数量级与 Google 等公司至关,虽然百度的体量小很多,其去年营收为 十二36 亿元人民币,只要 Google 的 6%。
    据理解,字节、腾讯、阿里、百度这四家中国投入 AI 和云计算至多的科技公司,过来 A100 的积攒都达到上万块。其中字节的 A100 绝对数至多。不算往年的新增定单,字节 A100 和前代产品 V100 总数接近 10 万块。
    生长期公司中,商汤往年也声称,其 “AI 大安装” 计算集群中已总共部署了 2.7 万块 GPU,其中有 1 万块 A100。连看似和 AI 不搭边的量化投资公司幻方以前也购买了 1 万块 A100。
    仅看总数,这些 GPU 供各公司训练大模型似乎入不敷出——据英伟达官网案例,OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万块 V100 ,训练时长未地下;英伟达测算,假如用 A100 来训练 GPT-3 ,需求 1024 块 A100 训练 1 个月,A100 比拟 V100 有 4.3 倍机能晋升。但中国大公司过来推销的少量 GPU 要撑持现有业务,或放在云计算平台上售卖,其实不能自在地用于大模型开发和对外反对客户的大模型需要。
    这也解释了中国 AI 从业者对算力资源预算的微小差异。清华智能产业钻研院院长张亚勤 4 月底加入清华论坛时说,“假如把中国的算力加一块,至关于 50 万块 A100,训练五个模型没问题。”AI 公司旷视科技 CEO 印奇承受《财新》采访时则说:中国目前可用作大模型训练的 A100 总共只要约 4 万块。
    次要反应对芯片、办事器和数据核心等固定资产投资的资本开支,能够直观阐明中外大公司计算资源的数量级差距。
    最先开始测试类 ChatGPT 产品的百度,2020 年以来的年资本开支在 8 亿到 20 亿美元之间,阿里在 60-80 亿美元之间,腾讯在 70-十一0 亿美元之间。同期,亚马逊、Meta、Google、微软这四家自建数据核心的美国科技公司的年资本开支至少均超过 150 亿美元。
    疫情三年中,海内公司资本开支持续下跌。亚马逊去年的资本开支已来到 580 亿美元,Meta、Google 均为 314 亿美元,微软接近 240 亿美元。中国公司的投资在 2021 年之后则在膨胀。腾讯、百度去年的资本开支均同比下滑超 25%。

    3oxs3b5mmhn.jpg

    3oxs3b5mmhn.jpg

    训练大模型的 GPU 已不算短缺,各家中国公司假如真的要长时间投入大模型,并赚到给其它模型需要 “卖铲子” 的钱,将来还需求继续减少 GPU 资源。
    走得更快 OpenAI 已遇到了这一应战。5 月中旬,OpenAI CEO SamAltman 在与一群开发者的小规模交流中说,因为 GPU 不敷,OpenAI 当初的 API 办事不敷不乱,速度也不敷快,在有更多 GPU 前,GPT-4 的多模态才能还无奈拓展给每个用户,他们近期也不许备公布新的消费级产品。技术征询机构 TrendForce 往年 6 月公布讲演称,OpenAI 需求约 3 万块 A100 来继续优化和商业化 ChatGPT。
    与 OpenAI 协作颇深的微软也面临相似情境:往年 5 月,有用户吐槽 New Bing 回答速度变慢,微软回应,这是由于 GPU 增补速度跟不上用户增长速度。嵌入了大模型才能的微软 Office 365 Copilot 目前也没有大范围凋谢,最新数字是有 600 多家企业在试用——Office 365 的寰球总用户数接近 3 亿。
    中国大公司假如不是仅把训练并公布一个大模型作为指标,而是真想用大模型发明办事更多用户的产品,并进一步反对其它客户在云上训练更多大模型,就需求提前贮备更多 GPU。
    03 为何只能是那四款卡?
    在 AI 大模型训练上,当初 A100、H100 及其特供中国的减配版 A800、H800 找不到代替品。据量化对冲基金 Khaveen Investments 测算,英伟达数据核心 GPU 2022 年市占率达 88%,AMD 和英特尔瓜分剩下的部份。

    wasf4oeg3kh.jpg

    wasf4oeg3kh.jpg

    2020 年的 GTC 大会上,黄仁勋携 A100 第一次表态。
    英伟达 GPU 目前的不成代替性,源自卑模型的训练机制,其中心步骤是预训练(pre-training)和微调(fine-tuning),前者是打基座,至关于承受通识教育至大学结业;后者则是针对详细场景和工作做优化,以晋升任务表示。
    预训练环节尤为损耗算力,它对单个 GPU 的机能和多卡间的数据传输才能有极高要求。
    当初只要 A100、H100 能提供预训练所需的计算效力,它们看起来低廉,反倒是最昂贵的选择。明天 AI 还在商用初期,本钱间接影响一个办事是不是可用。
    过来的一些模型,如能辨认猫是猫的 VGG16,参数量只要 1.3 亿,过后一些公司会用玩游戏的 RTX 系列消费级显卡来跑 AI 模型。而两年多前公布的 GPT-3 的参数范围已达到 1750 亿。
    大模型的宏大计算需要下,用更多低机能 GPU 独特组成算力已行欠亨了。由于使用多个 GPU 训练时,需求在芯片与芯片间传输数据、同步参数信息,这时候部份 GPU 会闲置,无奈始终饱和任务。所以单卡机能越低,使用的卡越多,算力消耗就越大。OpenAI 用 1 万块 V100 训练 GPT-3 时的算力利用率不到 50%。
    A100 、H100 则既有单卡高算力,又有晋升卡间数据传输的高带宽。A100 的 FP32(指用 4 字节进行编码存储的计算)算力达到 19.5 TFLOPS(1 TFLOPS 即每秒进行一万亿次浮点运算),H100 的 FP32 算力更高达 134 TFLOPS,是竞品 AMD MI250 的约 4 倍。
    A100、H100 还提供高效数据传输才能,尽量增加算力闲置。英伟达的独家秘籍是自 2014 年起陆续推出的 NVLink、NVSwitch 等通讯协定技术。用在 H100 上的第四代 NVLink 可将同一办事器内的 GPU 双向通讯带宽晋升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串行传输规范)的 7 倍多。
    去年美国商务部对 GPU 的出口规则也恰是卡在算力和带宽这两条线上:算力上线为 4800 TOPS,带宽上线为 600 GB/s。
    A800 和 H800 算力和原版至关,但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s,H800 的详细参数尚未地下,据彭博社报导,它的带宽只要 H100(900 GB/s) 的约一半,履行一样的 AI 工作时,H800 会比 H100 多花 10% -30% 的时间。一位 AI 工程师揣测,H800 的训练成果可能还不如 A100,但更贵。
    即便如斯,A800 和 H800 的机能仍然超过其余大公司和守业公司的同类产品。受限于机能和更公用的架构,各公司推出的 AI 芯片或 GPU 芯片,当初次要用来做 AI 推理,难以胜任大模型预训练。简略来讲,AI 训练是做出模型,AI 推理是使用模型,训练对芯片机能要求更高。
    机能差距外,英伟达的更深护城河是软件生态。
    早在 2006 年,英伟达就推出计算平台 CUDA,它是一个并行计算软件引擎,开发者可以使用 CUDA 更高效地进行 AI 训练和推理,用好 GPU 算力。CUDA 明天已成为 AI 根底设施,主流的 AI 框架、库、工具都以 CUDA 为根底进行开发。
    英伟达以外的 GPU 和 AI 芯片如要接入 CUDA,需求本人提供适配软件,但只要 CUDA 部份机能,更新迭代也更慢。PyTorch 等 AI 框架正试图打破 CUDA 的软件生态垄断,提供更多软件才能以反对其它厂商的 GPU,但这对开发者吸引力无限。
    一名 AI 从业者称,他所在的公司曾接触一家非英伟达 GPU 厂商,对方的芯片和办事报价比英伟达更低,也许诺提供更及时的办事,但他们判别,使用其它 GPU 的总体训练和开发本钱会高于英伟达,还得承当后果的不肯定性和花更多时间。
    “虽然 A100 价钱贵,但其实用起来是最廉价的。” 他说。对无意捉住大模型时机的大型科技公司和头部守业公司来讲,钱往往不是问题,时间才是更贵重的资源。
    短时间内,独一影响英伟达数据核心 GPU 销量的可能只要台积电的产能。
    H100/800 为 4 nm 制程,A100/800 为 7 nm 制程,这四款芯片均由台积电代工出产。据台湾媒体报导,英伟达往年向台积电新增了 1 万片数据核心 GPU 定单,并下了超急件 ,出产时间至多可缩短 50%。正常状况下,台积电出产 A100 需求数月。目前的出产瓶颈次要在先进封装产能不敷,缺口达一至两成,需求 3-6 个月逐渐晋升。
    自从合用于并行计算的 GPU 被引入深度学习,十多年来,AI 开展的能源就是硬件与软件,GPU 算力与模型和算法的交叠向前:模型开展拉动算力需要;算力增长,又使本来难以企及的更大范围训练成为可能。
    在上一波以图象辨认为代表的深度学习热潮中,中国 AI 软件才能比肩寰球最前沿程度;算力是目前的难点——设计与制作芯片需求更长的积攒,波及漫长供给链和浩繁专利壁垒。
    大模型是模型与算法层的又一次大停顿,没时间缓缓来了,想做大模型,或提供大模型云计算才能的公司必需尽快获取足够多的先进算力。在这轮热潮使第一批公司振奋或绝望前,环抱 GPU 的抢夺不会住手。
    本文转载自晚点LatePost,仅代表原出处和原作者观念,仅供参考浏览,不代表本网态度和立场。
  • 发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题3

    帖子33

    积分120

    图文推荐