0°

ChatGPT引发AI芯片荒,台积电成了英伟达身后的超级大赢家

  1849 年,美国加州发现金矿的消息传开后,淘金热开始了。无数人涌入这片新土地,他们有的来自东海岸,有的来自欧洲大陆,还有来到美国的第一代华人移民,他们刚开始把这个地方称为「金山」,后来又称为「旧金山」。

  但不管如何,来到这片新土地的淘金者都需要衣食住行,当然最关键的还是淘金的装备——铲子。正所谓「工欲善其事,必先利其器」,为了更高效地淘金,人们开始疯狂地涌向卖铲人,连带着财富。

  一百多年后,旧金山往南不远,两家硅谷公司掀起了新的淘金热:OpenAI 第一个发现了 AI 时代的「金矿」,英伟达则成为了第一批「卖铲人」。和过去一样,无数人和公司开始涌入这片新的热土,拿起新时代的「铲子」开始淘金。

  不同的是,过去的铲子几乎不存在什么技术门槛,但今天英伟达的 GPU 却是所有人的选择。今年以来,仅字节跳动一家就向英伟达订购了超过 10 亿美元的 GPU,包括 10 万块 A100 和 H800 加速卡。百度、谷歌、特斯拉、亚马逊、微软……这些大公司今年至少都向英伟达订购了上万块 GPU。

  H100 GPU,图/英伟达

  但这依然不够。旷视科技 CEO 印奇 3 月底在接受财新采访的时候表示,中国只有大约 4 万块 A100 可用于大模型训练。随着 AI 热潮的持续,英伟达上一代高端 GPU A100 的阉割版——A800 在国内一度也涨到了 10 万元一块。

  6 月的一场非公开会议上,OpenAI CEO Sam Altman 再次表示,GPU 的严重短缺,导致了很多优化 ChatGPT 的工作被迫推迟。按照技术咨询机构 TrendForce 的测算,OpenAI 需要大约 3 万块 A100 才能支持对 ChatGPT 的持续优化和商业化。

  就算从今年 1 月 ChatGPT 的新一轮爆发算起,AI 算力的短缺也持续了近半年,这些大公司为什么还缺 GPU 和算力?

  ChatGPT们缺显卡?缺的是英伟达

  借用一句广告语:不是所有 GPU 都是英伟达。GPU 的短缺,实质是英伟达高端 GPU 的短缺。对 AI 大模型训练而言,要么选择英伟达 A100、H100 GPU,要么也是去年禁令后英伟达专门推出的减配版 A800、H800。

  AI 的使用包括了训练和推理两个环节,前者可以理解为造出模型,后者可以理解为使用模型。而 AI 大模型的预训练和微调,尤其是预训练环节需要消耗大量的算力,特别看重单块 GPU 提供的性能和多卡间数据传输能力。但在今天能够提供大模型预训练计算效率的 AI 芯片(广义的 AI 芯片仅指面向 AI 使用的芯片):

  不能说不多,只能说非常少。

  大模型很重要的一个特征是至少千亿级别的参数,背后需要巨量的算力用来训练,多个 GPU 之间的数据传输、同步都会导致部分 GPU 算力闲置,所以单个 GPU 性能越高,数量越少,GPU 的利用效率就高,相应的成本则越低。

  英伟达 DGX H100 AI 超级计算机,图/英伟达

  而英伟达 2020 年以来发布的 A100 、H100,一方面拥有单卡的高算力,另一方面又有高带宽的优势。A100 的 FP32 算力达到 19.5 TFLOPS(每秒万亿次浮点运算),H100 更是高达 134 TFLOPS。

  同时在 NVLink 和 NVSwitch 等通信协议技术上的投入也帮助英伟达建立了更深的护城河。 到 H100 上,第四代 NVLink 可以支持多大 18 个 NVLink 链接,总带宽达 900GB/s,是 PCIe 5.0 带宽的 7 倍。

  面向中国市场定制的 A800 和 H800,算力几乎不变,主要是为了避开管制标准,带宽分别削减了四分之一和一半左右。按照彭博社的说法,同样的 AI 任务,H800 要花比 H100 多 10% -30% 的时间。

  但即便如此,A800 和 H800 的计算效率依然超过其他 GPU 和 AI 芯片。这也是为什么在 AI 推理市场会出现「百花齐放」的想象,包括各大云计算公司自研的 AI 芯片和其他 GPU 公司都能占据一定的份额,到了对性能要求更高的 AI 训练市场却只有英伟达「一家独大」。

  H800「刀」了带宽,图/英伟达

  当然,在「一家独大」的背后,软件生态也是英伟达最核心的技术护城河。这方面有很多文章都有提及,但简而言之,最重要的是英伟达从 2007 推出并坚持的 CUDA 统一计算平台,时至今日已经成为了 AI 世界的基础设施,绝大部分 AI 开发者都是以 CUDA 为基础进行开发,就如同 Android、iOS 之于移动应用开发者。

  不过照理说,英伟达也明白自己的高端 GPU 非常抢手,春节后就有不少消息指出,英伟达正在追加晶圆代工订单,满足全球市场的旺盛需求,这几个月时间理应能够大幅提高代工产能,毕竟又不是台积电最先进的 3nm 工艺。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论