3月初举行的GTC大会上,英伟达CEO黄仁勋(Jensen Huang)公布了新一代芯片平台Blackwell,创新软件NIMs、AI平台NEMO和AI工坊(AI foundry)服务,以及仿真平台Omniverse和适用于自主移动机器人的Isaac Robotics平台,引发全球关注。
黄仁勋表示,采用新架构的Blackwell的新一代AI图形处理器(GPU)“非常非常强大”,第一款Blackwell芯片名为GB200,将于今年晚些时候上市。
会后,黄仁勋进行了两场媒体和分析师对话,其中包括一个半小时的GTC投资分析师问答活动。
投资者会议上,黄仁勋坦言,英伟达不止是芯片公司,而是一家拥有 AI 系统软件和生态系统的基础设施公司。
“加速计算已到达临界点,通用计算已失去动力,”黄仁勋坦言,我们需要一种全新的计算方式,由此才可以继续扩展,继续降低计算成本,并在保证可持续性的同时继续进行越来越多的计算。与通用计算相比,加速计算使每个行业都可以大幅提速。
黄仁勋表示,英伟达计划以 3 万至 4 万美元的价格出售用于 AI 和 HPC 工作负载的全新Blackwell GPU B200。不过,这只是一个大概的价格,因为英伟达更倾向于销售面向数据中心的整体解决方案,而不仅仅是芯片或加速卡本身。
Raymond James 分析师则认为,英伟达 H100的硬件成本约为 3,100 美元,而 B200的硬件成本则大幅提高到了 6000 美元。如果英伟达计划以 3 万至 4 万美元的价格出售B200,那么则意味着该芯片的毛利率将会高达80%-85%。
黄仁勋指出,Blackwell不仅仅是一块芯片,还是一个计算机系统。Blackwell极大地提升了行业标准,即便是ASIC也难以匹敌。英伟达构建了一台完整的超级计算机,提供从芯片到系统,再到NVLink、网络、软件的全套解决方案。
黄仁勋还强调,英伟达卖的是整个数据中心,公司软件业务长期可能与芯片业务同样重要。
他预测,机器人的ChatGPT时刻指日可待,英伟达已经为机器人构建了一个全新的“操作系统”。
“我们的独特之处在于,我们相信我们是唯一一个能够创造自己市场的芯片公司,看看我们正在创造的所有市场,我们通过软件驱动需求,反过来促进芯片的发展。这种模式让英伟达不仅成为了技术的创新者,更成为了市场的引领者。”黄仁勋表示。
黄仁勋指出,英伟达是一个市场制造者,而不是份额争夺者。
早前摩根士丹利活动上,英伟达CFO Colette Kress表示,她看到了AI和加速计算的巨大商业潜力,预计AI基础设施市场规模将远不止现在的1万亿美元。黄仁勋曾在一次路演中表示,该市场规模可能接近2万亿美元。
“今天,全球数据中心的市场规模是1万亿美元……每年有2500亿美元的市场……我们在每年2500亿美元市场中所占的百分比可能会比过去高得多。”黄仁勋表示。
Kress强调,英伟达不仅仅将自己定位为一个提供AI芯片的硬件公司,而是一个为数据中心提供整体加速计算解决方案的公司。随着更多产品的推出,英伟达的毛利率可能会回落到75%左右的水平,这是因为公司目前处于H100推动增长期后的产品多样化阶段。
“当你考虑到下一代产品的可用性,以及供应可能会紧张时,但同时也要考虑认证周期时,最棒、最先进的产品仍然是H100。”Kress表示。
针对推理业务贡献公司40%收入的疑问,Kress透露,英伟达拥有庞大的推荐引擎和搜索基础,考虑到生成式AI 正处于早期发展阶段,公司推理业务将会持续增长。(新的GenAI,尤其是多模态、新的更强大模型带来的更广泛应用,是未来的关键)
“谈到推理,这是个很好的问题。正如我们之前讨论的,推理占总需求的40%,未来增长依然可观。我们关注的推理领域不限于标准数据外,视频以及其他新兴领域,如推荐引擎和生物学应用,都是我们的关注重点。至于政府(人工智能)支出,初期更多集中在训练上,特别是在自然语言处理和本地化领域。为一个国家或地区构建大型模型是初期的主要任务。在美国以外,政府资助与企业共同努力,两者都有所涉猎。当然,训练完成后,应用开发和解决方案定制也是关键。”Kress表示。
数据中心之外,英伟达还将目光转向了个人电脑和工作站。Kress表示,未来模型不仅能存在于云中,笔记本上也能部署较小的语言模型。
“我们将架构周期从2年缩短到1年…但即使在同一架构内,我们现在也有能力推出其他关键产品,以满足市场的某些需求。H200就是一个例子,它是在H100的基础上构建的。”Kress称。
至于首次公布的NIMs AI 软件方面,黄仁勋称,英伟达提供了两条路径帮助企业级客户接入AI。一条是通过网站和广泛的解决方案提供商网络,使得NIMs能够被转换成适用的应用程序;另一种方向是,向企业提供工具加上协作工具的解决方案。“我认为这里会发生重大变革。这将是一个非常大的业务,这是工业革命的一部分。”
“在未来五到八年内,我们将开始看到自家基础设施的更新周期。尽管如此,但我认为目前的更新不是最佳的资本利用方式。”黄仁勋称。
黄仁勋认为,长期来看,英伟达软件业务可能与芯片业务同样重要。企业软件领域有巨大潜力。
黄仁勋强调,英伟达不仅是一个提供加速芯片公司,而是一个致力于数据中心加速计算的公司,市场潜力更大。
以下是英伟达GTC大会期间的投资者问答活动,由kimi和ChatGPT进行 AI 翻译和整理,钛媒体App进行部分人工修正:
公司参与者:Jensen Huang(黄仁勋)- 创始人兼首席执行官;Colette Kress – 执行副总裁兼首席财务官。
电话会议参与者:Ben Reitzes – Melius Research;Vivek Arya – 美国银行美林;Stacy Rasgon – 伯恩斯坦研究;Matt Ramsay – TD Cowen;Tim Arcuri – 瑞银;Brett Simpson – Arete Research;C.J. Muse – Cantor Fitzgerald;Joseph Moore – 摩根士丹利;Atif Malik – 花旗集团;Pierre Ferragu – New Street Research;Aaron Rakers – 富国银行;Will Stein – Truist Securities。
黄仁勋:早上好。很高兴见到大家。我们很久没有亲自见面了。我和Colette在这里是为了回答你们昨天的问题。
Colette Kress:好的。我们这里人很多,感谢大家的参与。Jensen和我将回答你们昨天的问题。我们将通过一系列在过道的人来与你们互动,你们可以举手,我们会用麦克风回答你们的问题。Jensen会补充一些开场白,然后我们开始今天的问答环节。听起来怎么样?
我将把话筒交给Jensen,看他是否想补充一些开场白,因为我们将不做正式的演讲,只进行问答。
黄仁勋:谢谢。很高兴见到大家。昨天有很多我想说的话,可能没有说得很好,但我要告诉你们,我以前从未在摇滚音乐会上做过演讲。我不知道你们怎么样,但我从未在摇滚音乐会上做过演讲。我模拟了它将是什么样子,但当我走上舞台时,它仍然让我屏息。无论如何,我会尽力而为。
我想告诉你们一些事情。有没有遥控器——哦,看那个。看,这就是空间计算。顺便说一下,如果你有机会看到Omniverse Vision Pro,那是令人疯狂的。完全无法理解它有多真实。
所以我们昨天谈到了五件事,我认为第一件确实值得一些解释。
我认为第一件事当然是这场新的工业革命。发生了两件事、两个转变。
第一个是从通用计算转向加速计算。如果你只看通用计算的趋势,它在过去几年中已经大大放缓。
事实上,我们知道这一趋势已经放缓了大约十年,人们只是不想处理它,但你现在真的必须处理它。你可以看到人们因此延长了他们的数据中心的折旧周期。你可以购买一整套新的通用服务器,但它不会显著提高你整个数据中心的吞吐量。
所以你可能还不如继续使用你现有的设备。这一趋势永远不会逆转。通用计算已经走到了尽头。我们将继续需要它,还有很多软件在它上面运行,但很明显我们应该加速我们能加速的一切。
有许多不同行业的工作负载已经被加速,有些是我们非常希望进一步加速的。但加速计算的好处是非常明显的。
昨天我没有花时间讨论的领域之一是数据处理。NVIDIA有一套库,在你能在公司做任何事情之前,你必须处理数据。当然,你必须摄取数据,数据量是非凡的。全世界每两年数据量翻倍,尽管计算能力并没有每两年翻倍。
所以你知道,在数据处理方面,你已经在曲线的错误一侧。如果你不转向加速计算,你的数据处理费用只会不断上升。因此,许多认识到这一点的公司,如阿斯利康、Visa、美国运通、万事达卡等,我们已经将他们的数据处理费用降低了95%,基本上是20倍的减少。
以至于我们现在的加速如此惊人,我们的一套名为rapids的库,Spark的发明者,他创立了一个伟大的公司叫做Databricks,他们是云大规模数据处理公司,他们宣布他们将使用NVIDIA GPU来加速他们的光子引擎。
好的,所以加速的好处,当然,可以传递给你的客户节省的费用,但非常重要的是,这样你可以继续可持续地计算。否则,你会一直处于曲线的错误一侧。你永远不会站在正确的一侧。你必须加速。问题是今天还是明天?好的,所以加速计算。我们加速算法的速度如此之快,以至于在过去的十年中,计算的边际成本已经大大降低,这使得一种新的软件方式成为可能,称为生成式AI。
正如你所知,生成性AI需要大量的浮点运算,大量的计算。这不是正常的计算量,而是非常大量的计算。然而,现在它可以成本有效地完成,消费者可以使用这种令人难以置信的服务,称为ChatGPT。所以,值得考虑的是,加速计算已经降低了计算的边际成本,以至于使得一种新的事物成为可能。
这种新方式是由计算机编写的软件,原材料叫做数据。你给它能量。有一种叫做GPU超级计算机的仪器。它产生的是我们享受的标记。当你与ChatGPT互动时,你得到的是它产生的标记。
现在,那个数据中心不是普通的数据中心。它不是你过去所知道的数据中心。原因是这个。它不是由很多人共享的。它不做很多不同的事情。它24/7运行一个应用程序。它的工作不仅仅是为了节省钱,它的工作是为了赚钱。它是一个工厂。
这与上一次工业革命中的交流发电机没有什么不同。它与原材料进来的是水没有什么不同。他们给它能量,它变成了电。现在是数据进来。它通过数据处理进行精炼,然后当然是生成式AI模型。
它产生的是有价值的标记。我们将这种基本的软件方法,有些人称之为推理,但标记生成。这种生产软件,生产数据,与你互动的方法,ChatGPT与你互动。
这种与你合作,与你协作的方法,你可以尽可能地扩展这个想法,人工智能代理的Copilot,你可以尽可能地扩展这个想法,但基本上是同样的想法。它生成软件,它生成标记,它来自我们称之为GPU超级计算机的AI发生器。这有道理吗?
所以这两个想法。第一个是我们今天使用的数据中心应该被加速,它们正在被加速。它们正在被现代化,越来越多的行业一个接一个地加速。所以世界上价值数万亿美元的数据中心最终都将被加速。问题是,这需要多少年才能完成?但因为第二个动态,它在人工智能中的好处是不可思议的,它将进一步加速这一趋势。这有道理吗?
然而,第二种数据中心,我称之为交流发电机或者对不起,AI发生器或者AI工厂,这是一种全新的东西。这是一种全新的软件,生成一种全新的宝贵资源,它将由公司、行业、国家等创造,一种新的行业。
我还谈到了我们的新平台。人们对Blackwell有很多猜测。Blackwell既是系统核心的芯片,但它实际上是一个平台。它基本上是一个计算机系统。NVIDIA所做的不仅仅是制造芯片。我们构建了从芯片到系统、互连、NVLinks、网络,但非常重要的是软件。
你能想象有多少电子产品被带入你的家里,你将如何编程?如果没有多年来创建的所有库,以使其有效,你就带了价值几亿美元的资产进入你的公司。
而且任何时候它没有被利用,都会花费你的钱。而且费用是不可思议的。所以我们帮助公司不仅仅是购买芯片,而是启动系统并投入使用,然后与他们一起工作,使它——更好地、更好地、更好地使用,这真的很重要。
好的,这就是NVIDIA所做的。我们称之为Blackwell的平台拥有我在演示结束时向你展示的所有这些组件,让你感受到我们所构建的规模。所有这些,我们然后将其拆解。这是我们所做的非常非常困难的部分。
我们构建了这个垂直整合的东西,但我们以可以拆解的方式构建它,这样你就可以购买它的部分,因为也许你想将它连接到x86。也许你想将它连接到PCIE。也许你想将它连接到一堆光纤、光学元件。
也许你想要非常大的NVLink域。也许你想要更小的NVLink域。也许你想使用arm,等等。这有道理吗?也许你想使用以太网。好吧,以太网对AI来说并不好。不管任何人怎么说,事实就是如此。
你不能改变事实。以太网对AI来说并不好,有原因。但你可以让以太网对AI变得很好。在以太网行业的情况下,它被称为Ultra Ethernet。所以大约三四年后,Ultra Ethernet将会到来,它对AI会更好。但在那之前,它对AI来说并不好。它是一个好网络,但对AI来说并不好。所以我们扩展了以太网,我们给它增加了一些东西。我们称之为Spectrum-X,它基本上做了自适应路由。它做了拥塞控制。它做了噪声隔离。
记住,当你有健谈的邻居时,它会占用网络流量。而AI,AI并不关心平均吞吐量。AI并不关心网络的平均吞吐量,这就是以太网的设计目的,最大平均吞吐量。AI只关心最后一个学生什么时候交上他们的部分产品?它是最后一个人。一个完全不同的设计点。如果你优化的是最高平均值而不是最差的学生,你会得出不同的架构。这有道理吗?
好的。而且无论如何,你可以将所有东西网络在一起。但你会损失10%、20%的利用率吗?是的。如果计算机价值1万美元,那么10%到20%的利用率并不多。但如果计算机价值20亿美元呢?它支付了整个网络的费用,这就是超级计算机被建造的方式。
所以无论如何,我展示了所有这些不同组件的例子,我们的公司创建了一个平台,以及与之相关的所有软件,所有必要的电子产品,然后我们与公司和客户合作,将其集成到他们的数据中心,因为他们的安全可能不同,也许他们的热管理不同,也许他们的管理平面不同,也许他们只想用它专门用于一个AI,也许他们想租用它让很多人用它做不同的AI。
用例非常广泛。也许他们想建立一个本地的,他们想在上面运行VMware。也许有人只想运行Kubernetes,有人想运行Slurm。好吧,我可以列出所有不同种类的环境,这完全是令人震惊的。
我们考虑了所有这些因素,在相当长的一段时间里,我们现在知道如何真正地为每个人服务。结果,我们可以大规模地构建超级计算机。但基本上NVIDIA所做的是构建数据中心。好的。我们将其分解成小部分,然后作为组件出售。人们认为因此我们是一家芯片公司。
我们做的第三件事是我们谈到了这种新的软件类型,称为NIMs。这些大型语言模型是奇迹。ChatGPT是一个奇迹。它不仅在它所能做的事情上是奇迹,而且在你能以非常高的响应率与ChatGPT互动的团队上也是奇迹。这是一个世界级的计算机科学组织。这不是一个普通的计算机科学组织。
OpenAI团队正在研究这些东西,他们是世界上最好的团队之一。好吧,为了让每家公司都能建立自己的AI,运营自己的AI,部署自己的AI,在多个云上运行,有人必须为他们去做计算机科学。所以,我们决定不是为每个单独的模型,每个单独的公司,每个单独的配置去做这件事,而是创建工具和工具包,以及运营,我们将首次打包大型语言模型。
你可以购买它。你可以只是来到我们的网站,下载它,然后你可以运行它。我们向你收费的方式是所有这些模型都是免费的。但当你在企业中运行它时,运行它的成本是每个GPU每年4500美元。基本上是运行该语言模型的操作系统。
好的。所以每个实例,每次使用的成本非常低。它非常非常实惠。而且——但好处是非常大的。我们称之为NIMs(英伟达推理微服务)。你将拥有各种类型的NIMs。你将拥有计算机视觉的NIMs。你将拥有语音和语音识别以及文本到语音的NIMs,你将拥有面部动画。你将拥有机器人关节。你将拥有各种不同类型的NIMs。
你使用这些NIMs的方式是,你可以从我们的网站下载它,然后用你的例子微调它。你会给它例子。你说,你对那个问题的回答方式不太对。在另一家公司可能是对的,但在我们这里是不对的。所以我会给你一些例子,这正是我们希望它看起来的样子。你展示你的工作产品。这就是——这就是一个好的答案看起来的样子,一大堆。
我们有一个系统帮助你策划这个过程,标记所有与AI处理相关的数据,微调它,评估它,设置边界,以便你的AI非常有效,第一,也非常狭窄。
你希望它非常狭窄的原因是,如果你是零售公司,你希望你的AI不要随便谈论一些随机的东西,好吗。所以无论问题是什么,它都会把它引导回那个车道。所以那个设置边界的系统是另一个AI。所以,我们有所有这些不同的AI帮助你定制我们的NIMs,你可以创建各种不同类型的NIMs。
我们为其中许多提供了框架。其中一个非常重要的是理解专有数据,因为每家公司都有专有数据。所以我们创建了一个名为Retriever的微服务。它是最先进的,它帮助你把你的数据库,无论是结构化的还是非结构化的图像、图表或图表,我们帮助你嵌入它们。
我们帮助你从这些数据中提取意义。然后我们取——它被称为语义,语义嵌入在一个向量中,这个向量现在被索引到一个新的数据库中,叫做向量数据库,好吗。然后之后,你可以和它交谈。你说,嘿,我有多少哺乳动物,例如。它进去说,嘿,看那里。你有一只猫,你有一只狗,你有一只长颈鹿。
这是你库存中的东西,在你们的仓库里,你有,好吗,等等。所以所有这些都被称为NeMo,我们有专家可以帮助你。然后我们把我们的——我们把一个标准的NVIDIA基础设施,我们称之为DGX Cloud,放在世界上所有的云中。所以我们在AWS中有DGX Cloud,在Azure中有DGX Cloud,在GCP和OCI中有DGX Cloud。
所以我们与世界上的公司合作,特别是企业IT公司,我们与他们一起创造这些伟大的AI,但当他们完成时,他们可以在DGX Cloud中运行,这意味着我们有效地将客户带到世界上的云中。像我们这样的平台公司,系统制造商客户和CSPs是系统制造商。他们租用系统而不是销售系统,但他们是系统制造商。所以我们把客户带到我们的CSPs,这是非常有意义的,就像我们把客户带到HP、Dell、IBM、联想等等,Supermicro、CoreWeave等等,我们把客户带到CSPs,因为平台公司就是这样做的。这有道理吗?
如果你是一家平台公司,你会为你的生态系统中的每个人创造机会。所以DGX Cloud让我们能够在世界上的CSPs中落地所有这些企业应用程序。他们想在本地进行。我们昨天宣布了与Dell的伟大合作伙伴关系,HP等等,你可以在他们的系统中部署这些NIMs。
然后我谈到了AI的下一波浪潮,这实际上是关于工业AI。这个——世界上最大的行业,以美元计,是重工业,重工业从未真正从IT中受益。他们没有从设计中受益,也没有从数字化中受益。
这被称为不是数字化,而是数字化,将其投入使用。他们没有像我们的行业那样从数字化中受益。因为我们的行业已经完全数字化,我们的技术进步是惊人的。我们不称之为芯片发现。我们称之为芯片设计。为什么他们称之为药物发现,就像明天可能与昨天不同?因为它是。而且它如此复杂——生物学如此复杂——它如此变化——而且纵向影响如此之大,因为,正如你所知,生命进化的速度与晶体管不同。所以因此,因果关系更难监控,因为它发生在大规模的系统和大规模的时间上。这些都是非常复杂的问题。物理学非常相似。
好的。工业物理非常相似。所以我们终于有能力使用大型语言模型,同样的技术。如果我们可以将蛋白质标记化,如果我们可以将——如果我们可以将语音标记化,我们可以将图像标记化,我们可以将关节动作标记化。这与语音没有什么不同,对吧?
我们可以将蛋白质的运动标记化,这与语音没有什么不同,好吗。我们只是——我们可以将所有这些不同的事情标记化。我们可以将物理学标记化,然后我们可以理解它的意义,就像我们理解单词的意义一样。
如果我们能理解它的意义,并且我们可以将其与其他模态连接起来,那么我们就可以做生成性AI。所以我很快解释了一下,12年前我在ImageNet看到了这一点。我们公司看到了这一点。大型突破实际上是12年前。
我们说,有趣,但我们实际上在看什么?有趣,但我们在看什么?ChatGPT,我会说,每个人都应该说有趣,但我们在看什么?我们在看什么?我们正在看一个计算机软件,它可以模仿你——模仿我们。
通过阅读我们的话,它模仿了我们话语的产生。为什么——如果你可以将单词标记化,如果你可以将关节动作标记化,为什么它不能模仿我们并将其推广到ChatGPT已经做到的方式。所以机器人技术的ChatGPT时刻肯定即将到来。所以我们想让人们能够做到这一点。所以我们创建了这个操作系统,使这些AI能够在基于物理的世界中进行实践,我们称之为Omniverse。
Omniverse不是工具。Omniverse甚至不是引擎。Omniverse是API,技术API,它增强了其他人的工具。所以我对与达索的公告感到非常兴奋。他们正在使用——他们正在连接到Omniverse API以增强3DEXCITE。微软已经将其连接到Power BI。
罗克韦尔Rockwell已经将其连接到他们的工具,用于工业自动化。西门子已经连接到他们的,所以这是一堆基于物理的API,它产生了图像或关节动作,并连接了一堆不同的环境。所以这些API旨在增强第三方工具。我非常高兴地看到它在工业自动化中的采用。所以这就是我们做的五件事。
我会很快做下一个。对不起,我花了太长时间,但让我很快做下一个。看那个。好的。所以这个图表,不要盯着它看太久,但它基本上传达了几件事。上面的是开发者。NVIDIA是市场制造者,而不是份额夺取者。我们所做的一切在开始做的时候都不存在。你只是上下移动。事实上,甚至在我们开始研究3D电脑游戏时,它们也不存在。
所以我们不得不去创造必要的算法。实时光线追踪在我们创造它之前并不存在。所以我们不得不去培养和与开发者合作,将我们刚刚创造的技术整合到应用程序中,以便应用程序能够从中受益。
我只是解释了对于Omniverse的情况。我们发明了Omniverse。我们没有从任何人那里拿走任何东西,它不存在。为了使它有用,我们现在必须有开发者,达索,Ansys,Cadence等。这有道理吗?罗克韦尔,西门子。
我们需要开发者利用我们的API,我们的技术。有时它们以SDK的形式出现。在Omniverse的情况下,我非常自豪它是以云API的形式出现的,因为现在它可以很容易地使用,你可以在两种方式中使用它,但API要容易得多,好吗。我们在Azure云中托管Omniverse。而且每当我们将其连接到客户时,我们就为Azure创造了机会。
所以Azure是基础,他们的系统提供商。回到过去,系统提供商曾经是OEM,他们继续是,但系统提供商在底部,开发者在顶部。我们在中间发明技术,恰好成为芯片领域的核心。
它是软件优先的。而且没有开发者,就没有芯片的需求。所以NVIDIA首先是一家算法公司,我们创建这些SDK。他们称之为DSL,特定领域的库。SQL是一个特定领域的库。你可能听说过Hadoop是一个特定领域的存储计算库。
NVIDIA的cuDNN可能是继SQL之后世界上最成功的特定领域库。cuDNN是一个特定领域的库。它是深度神经网络的计算引擎库。没有DNN,他们都不会能够使用CUDA。所以DNN被发明了。
实时光线追踪光学,这导致了RTX,有道理。我们有数百个特定领域的库。Omniverse是一个特定领域的库。这些特定领域的库与开发者在软件方面整合,当应用程序被创建并且有需求时,就会为下面的基础创造机会。我们是市场制造者,而不是份额夺取者。这有道理吗?
所以教训是,没有软件就无法创造市场。这一直是这样。这从未改变。你可以建造芯片使软件运行得更好,但你不能没有软件创造新市场。使NVIDIA独特的是,我相信我们是唯一能够创造自己市场的芯片公司,注意我们正在创造的所有市场。
这就是为什么我们总是谈论未来。这些是我们正在努力的事情。我们真的——没有什么比与整个行业合作创造计算机辅助药物设计行业更让我高兴的了,不是药物发现行业,而是药物设计行业。
我们必须像我们设计芯片一样设计药物,而不是像寻找松露一样寻找药物。有些日子是好的,有些日子是不太好的。
好的,好吧。所以我们有开发者在顶部。我们的基础在底部。开发者想要的东西非常简单。他们想确保你的技术性能很好,但他们必须解决他们无法以其他方式解决的问题。但对开发者来说最重要的是安装基础。而且自从时间开始以来就没有改变,现在也没有改变。人工智能,如果你开发了人工智能软件,你想部署它,让人们可以使用它,你需要安装基础。
第二,系统公司,基础公司他们想要杀手级应用。这就是——这就是杀手级应用这个词存在的原因,因为哪里有杀手级应用,哪里就有客户需求,哪里有客户需求,你就可以卖硬件。
所以,事实证明这个循环非常难以启动。你真的能建造多少加速计算平台?你能为生成性AI建造一个加速计算平台,以及工业机器人,以及量子,以及6G,以及天气预测吗?
而且你可以为所有这些不同的版本建造,因为有些版本擅长流体。有些擅长粒子。有些擅长生物学。有些擅长机器人。有些擅长AI。有些擅长SQL。答案是不。你需要一个足够通用的加速计算平台。就像上一个计算平台因为运行一切而非常成功一样。
NVIDIA花了我们很长时间,但我们基本上运行了一切。如果你的软件被加速了,我非常确定,它运行在NVIDIA上。这有道理吗?好的。如果你有加速的软件,我非常非常确定它运行在NVIDIA上。而且原因是因为它可能是在NVIDIA上首先运行的。
好的,好吧。所以这是NVIDIA的架构。每当我做主题演讲时,我倾向于触及它们中的所有部分,有些新的东西,我们在这中间做了,比如Blackwell。我谈到了有很多好东西,你必须去看看我们的tox,看起来像1000个tox。6G研究,6G将如何发生?当然是AI。你为什么要使用AI?机器人MIMO。
为什么MIMO如此预装,为什么算法出现在现场之前。我们应该有特定于站点的MIMO,就像机器人MIMO一样。所以,强化学习和与环境的交易,所以6G当然将是软件定义的,当然是AI。
量子计算,当然我们应该成为量子计算行业的伟大合作伙伴。你怎么能驾驶量子计算机?拥有世界上最快的计算机坐在它旁边。
你将如何刺激量子计算机,模拟量子计算机?量子计算机的编程模型是什么?你不能只编程一个量子计算机。你需要有经典的计算坐在它旁边。所以量子将是某种量子加速器。
所以,谁应该去做那件事,我们已经做了,所以我们与整个行业合作。所以全面来看,一些非常、非常好的东西。我希望我能有一个完整的主题演讲,只讨论所有这些事情。但我们涵盖了整个范围。好的,所以那是昨天的事情。谢谢你们。
问答环节
A – Colette Kress:好的。我们让他们四处走动,看看我们是否能抓住你的问题。
Ben Reitzes:嗨,Jensen。我是Melius Research的Ben Reitzes。很高兴见到你。
黄仁勋:谢谢你,Ben。
Ben Reitzes:这对我们所有人来说都是一个巨大的刺激。所以我想更多地了解一下你对软件的愿景。你正在创造行业。你有全方位的方法。很明显,你的软件使你的芯片运行得更好。你认为从长远来看,你的软件业务能否像你的芯片业务一样大?如果我们展望10年,你是——你不是芯片公司,但你认为,鉴于你在软件和你所构建的行业的势头,你会是什么样子?你似乎会变得更多一些。
黄仁勋:是的。谢谢你,Ben。我感谢你。首先,我感谢你们所有人的到来。这是一个非常、非常不同类型的活动,你知道。大多数演讲都是关于软件的,都是计算机科学家,他们在谈论算法。
NVIDIA的软件栈大约有两件事。它要么是帮助计算机运行得更好的算法,TensorRT-LLM。这是一个非常复杂的算法,它以大多数编译器从未需要的方式探索计算空间。TensorRT-LLM甚至不能在没有超级计算机的情况下构建。很可能未来的TensorRT,未来的TensorRT-LLM,实际上必须一直在超级计算机上运行,以便为每个人的AI优化。而这个优化问题非常、非常复杂。所以这就是我们创建的软件的一个例子,优化、运行时。第二种我们创建的软件是当有一个算法,其中原则算法是众所周知的。
例如,Navier-Stokes,然而——薛定谔方程,然而,也许在超级计算或加速计算或实时光线追踪中表达它是一个很好的例子。实时光线追踪从未被发现。这有道理吗?好的。所以,正如你所知,Navier-Stokes是一个非常复杂的算法。能够以实时方式重构它也是非常复杂的,需要大量的发明,我们公司的一些计算机科学家因为他们在如此大规模上解决了这些问题而获得了奥斯卡奖。他们的发明,他们的算法,他们的数据结构本身就是计算机科学。好的。所以我们将致力于这两层。
然后当你把它——在旧时代,这对娱乐、媒体娱乐、科学等等都是有用的。但今天,因为AI已经将这项技术带到了应用的前沿,模拟分子曾经是你在大学里做的事情。现在你可以在工作中做到这一点。所以当我们现在为企业提供所有这些算法时,它就变成了企业软件。企业软件就像你从未见过的那样。我们称之为——我们将它们放在NIMs中,这些包。我们将大量生产它们,并将支持它们、维护它们、保持它们的性能,以支持客户使用它们。所以我认为这将是一个非常大的业务,这是工业革命的一部分。
如果你看到了,今天的IT行业是SAP和伟大的公司,ServiceNow和Adobe和Autodesk和Canes,那是今天的IT行业。那不是我们要玩的地方。我们要玩的是上面的一层。上面的那一层是一堆AI和这些算法,真的,我们是正确的公司去建造它们。所以我们会与他们一起建造一些,我们会自己建造一些,但我们会将它们打包并以企业规模部署它们。好的。所以我很感激你提出这个问题。当她走过去的时候。继续。是的。
Vivek Arya:嗨,Vivek Arya来自美国银行证券。谢谢你,Jensen。谢谢你,Colette的演讲。所以Jensen,我的问题可能是更接近中短期的,那就是你的可寻址市场规模,因为你的收入增长得非常快。当我看到你们的大型客户时,他们就像30%、40%、50%,有时更多,但当我看到你们从生成性AI中产生多少收入时,就像不到他们销售额的10%。所以这种差距可以持续多久?更重要的是,我们是否已经到了他们可以花多少钱在你们的产品上的中点?所以我认为你过去给了我们一个万亿美元的市场,变成了2万亿美元。如果你能教育我们一下市场有多大?以及我们在这个采用曲线上的位置,基于它可以被——基于它可以在近期到中期内被货币化多少?
黄仁勋:好的。我先给你一个超级浓缩的版本,然后我会回来解决这个问题。
好的。所以市场有多大?我们能有多大的问题?这与市场规模和我们卖的东西有关。记住,我们卖的是数据中心。我只是把它分解了。但最终,我卖的是数据中心。注意你在主题演讲中看到的最后一张图片,它提醒我们我们实际上卖什么。
我们展示了一堆芯片。但记住,我们并不真的卖那些。芯片自己不会工作。你需要将它们构建成我们的系统。最重要的是,系统软件和生态系统栈非常复杂。所以NVIDIA为AI构建了整个数据中心。我们只是把它分解成那部分。
所以这就是我们卖的东西。什么是机会?今天世界上的数据中心规模是1万亿美元。对。它是1万亿美元的安装基础,每年2500亿美元。我们按部分卖整个数据中心,所以我们每年2500亿美元的百分比可能比卖芯片的人高得多,无论是GPU芯片还是CPU芯片还是网络芯片。
这个机会以前没有变。但NVIDIA制造的是一个数据中心规模的加速计算平台。好的。所以我们每年2500亿美元的百分比可能会比过去高得多。现在,第二件事。它有多可持续?有两个答案。你买NVIDIA的一个原因是AI。如果你只建造TPUs,如果你的GPU只用于一个应用程序,那么你必须依靠100%的AI。
今天你可以从AI中货币化多少?Token生成回报。然而,如果你的价值主张是AI 代币生成,但那是AI训练模型,而且非常重要的是,减少计算成本,加速计算,可持续计算,节能计算,那是NVIDIA在核心业务中所做的事情。这只是我们做得如此之好,以至于创造了生成性AI。好的。现在人们忘记了,这有点像我们的第一个应用程序是计算机图形。我们的第一个应用程序是游戏。
我们做得如此之好,如此热情,以至于人们忘记了,我们是一家加速计算公司。他们认为,嘿,你是一家游戏公司,一代年轻人长大了。一旦他们学会了,他们使用RIVA 128,他们带着GeForce上了大学,然后当他们最终成为成年人时,他们认为你是一家游戏公司。所以——我们只是做——我们做加速计算如此之好。我们做AI如此之好,人们认为这就是我们所做的一切。但加速计算是一万亿美元——每年2500亿美元应该用于加速计算,不管有没有AI,只是为了可持续计算,只是为了处理SQL,正如你们所知,SQL是世界上最大的计算消耗之一。
好的。所以我会说每年2500亿美元应该用于加速计算,无论如何。然后在那之上是生成性AI。我认为生成性AI会有多可持续?你知道我对此的看法。我认为我们将生成单词、图像、视频、蛋白质、化学品、动力学行动、操纵。我们将生成预测。我们将生成账单。我们将生成材料清单,我们将生成清单。列表还在继续。
Stacy Rasgon:嗨,Jensen,Colette。谢谢。我是伯恩斯坦研究的Stacy Rasgon。我想询问关于CPU和GPU之间的相互作用。你昨天展示的大多数基准测试,如果不是全部的话,都是关于Grace Blackwell系统的,它有两GPU和一CPU,相对于Grace Hopper,每GPU的CPU比例翻了一倍。你没有太多谈论相对于独立GPU的基准测试。这是一个转变吗?你们是不是在未来的AI服务器中寻找更多的CPU内容?然后当我考虑到你们正在开发的ARM CPU和x86时,似乎你们在未来对x86方面的重视减少了一点。
黄仁勋:是的,Stacy。感谢你的问题。
实际上,它们两者都没有问题。我认为x86和ARM都非常适合数据中心。Grace之所以这样构建,有其原因,ARM的好处在于我们可以围绕CPU塑造NVIDIA系统架构。这样我们就可以在GPU和CPU之间创建这种东西,称为芯片到芯片,NVLink,连接GPU和CPU。我们可以使两侧一致,这意味着,当CPU触摸一个寄存器时,它会使GPU侧的相同寄存器失效。因此,两侧可以协同工作一个变量。今天你不能在x86和外围设备之间做到这一点,所以我们解决了一些我们无法解决的问题。
因此,Grace Hopper非常适合CAE应用程序,这是多物理的。有些在CPU上运行,有些在GPU上运行。它非常适合CPU和GPU的不同组合。所以我们可以为每个GPU或两个GPU关联非常大的内存。因此例如,数据处理在Grace Hopper上非常出色。好的。所以它之所以更难解决,并不是因为CPU本身,而是因为我们无法采用系统。
其次,为什么我展示了一张图表,我展示了Hopper与Blackwell在x86系统B100、B200上的对比,还有GB200,即Grace Blackwell。在那种情况下,Blackwell的好处并不是因为CPU更好。而是因为在使用Grace Blackwell的情况下,我们能够创建一个更大的NVLink域。这个更大的NVLink域对于下一代AI来说真的非常重要。未来三到五年,就我们目前所能看到的。
如果你真的想要一个好的推理性能,你将需要NVLink。那是我试图传达的信息。我们将更多地谈论这个问题。现在非常清楚,这些大型语言模型,它们永远不会适合一个GPU。好的。无论如何,这不是重点。而且为了让你有足够的响应性和高吞吐量以保持成本下降,你需要比你甚至适合的GPU多得多。
为了让你有很多GPU在没有开销的情况下协同工作,你需要NVLink。NVLinks的好处和推理总是认为NVLinks的好处在于训练。NVLinks的好处和推理是惊人的。那是5倍和30倍之间的另一个6倍,都是NVLink。NVLinks在新的Tensor Core中。
所以。Grace让我们能够构建一个系统,就像我们需要的那样,而且它比x86更难做到。但我们支持两者。我们将有两个版本的两者。而在B100的情况下,它只是滑入H100和H200所在的位置。所以从Hopper过渡到Blackwell的过渡是即时的。一旦它可用,你只需滑入它,然后你可以弄清楚如何处理下一个数据中心。好的。所以我们得到了架构极限的极高性能,以及轻松过渡的好处。
Stacy Rasgon:谢谢。
Matt Ramsay:我是TD Cowen的Matt Ramsay。嗨,Jensen,Colette。谢谢你们做这个。早上好,为了做这个。我想让Jensen你昨天谈到了一些我一直在思考的话题。其中一个是NIMs,你们昨天谈到了,它似乎是为人们更快地进入AIE并吸引客户而设计的垂直特定加速器。我想让你给我们一个概述,你的公司在更广泛的企业中是如何进行的,以及人们可以利用哪些不同的途径进入AI?第二个话题是关于电力的。我的团队一直在花很多时间研究电力。我试图决定我是否应该在那里花更多时间,或者更少时间。你们昨天介绍的一些系统功率高达100千瓦甚至更多。我知道这种规模的计算没有你们正在做的集成是无法完成的,但我们也在得到关于电力生成的宏观层面的问题,以及在这种密度下将电力输送到机柜的能力。我很想听听你的想法,关于你的公司是如何与行业合作为这些系统供电的。谢谢。
黄仁勋:好的。我先从第二个问题开始。
电力输送,100千瓦对于计算机来说是很多,但100千瓦是一种商品,你们知道这一点,对吧。世界需要的不仅仅是120千瓦。所以绝对的电力量不是问题。电力的输送不是问题。输送电力的物理过程也不是问题。冷却120千瓦也不是问题。我们都同意这一点。
好的。所以这一切都不是物理问题。这一切都不需要发明。这一切都需要供应链规划。这有道理。所以这就是方式。供应链规划有多重要?很多。我是认真的。我们非常认真地考虑这个问题。所以我们一直在考虑供应链规划,你要知道,我们与Vertiv等公司有着伟大的合作伙伴关系。我想如果你看看我们与Vertiv一起写的报纸的头版,所以Vertiv和NVIDIA的工程师正在研究冷却系统。好的。所以Vertiv在设计液冷和其他地方的数据中心方面非常重要。我们与西门子有着伟大的合作伙伴关系。我们与罗克韦尔、施耐德有着伟大的合作伙伴关系,所有这些原因。这与我们与TSMC、三星、SPIL、Wistron等公司的伟大合作伙伴关系完全相同。所以我们将不得不去——我们公司的供应链关系非常广泛和深入。这就是为什么我们自己建造数据中心的原因之一。
我们已经建造了超级计算机很长时间了。这不是我们第一次。我们的第一个超级计算机是2016年的DGX-1,这让我们有了一定的视角。我们每年都会建造一个,今年我们将建造几个。所以我们正在建造它,这给了我们与我们正在合作的人的切实感受,谁是最棒的,我们为什么会这样做,其中一个原因就是这个。NIMs。有两种方式可以让人们进入企业。有一种是最有影响力的方式。还有一种方式。好的。它们都很重要。其他的——我会从其他的开始。其他的是我们将创建这些NIMs。我们将把它们放在我们的网站上。我们将通过GSI和许多解决方案提供商,他们将帮助公司将这些NIMs变成应用程序。这将有一整套东西。这将有一整套东西,好的。所以我们的上市策略包括大型GSI和小型专业GSI等等。我们在那个领域有很多合作伙伴关系。
另一种方式,我认为这真的很令人兴奋。我认为这将是大动作发生的地方,是全球数万亿美元的企业公司。他们今天创建了工具。在未来,他们将为你提供工具和副驾驶。记住,世界上最普遍的工具是Office。现在Office的副驾驶。对于NVIDIA Synopsys、Cadence、Ansys等工具,我们希望为所有这些工具提供副驾驶。注意,我们正在为我们自己的工具构建副驾驶。我们称之为ChipNeMo。ChipNeMo非常聪明。ChipNeMo现在理解NVIDIA Lingo,NVIDIA Chip Talk,它知道如何编写NVIDIA程序。所以当我们雇佣每一个工程师时,我们首先会告诉他们,这是ChipNeMo,然后是洗手间,然后是自助餐厅,等等。所以他们会立即变得有生产力,无论你是否吃午餐,ChipNeMo都可以做到一些事情。所以这只是一个例子。
但我们正在我们自己的工具上到处构建Copilot。大多数公司可能做不到这一点,我们可以教GSI如何做到这一点,但在这些工具Cadence等领域,他们将构建自己的副驾驶。他们会将他们租出去,像工程师一样雇佣他们。我认为他们坐在一个金矿上。SAP将会这样做。ServiceNow将会这样做,他们非常专业。他们理解像ABAP这样的语言,这是SAP杠杆会喜欢的语言,正如你所知,ABAP是世界上最重要的ERP系统的语言。
每家公司都在运行它。我们使用ABAP。所以现在他们必须创建一个Chat ABAP,就像我们为Omniverse创建的ChipNeMo或ChatUSD一样,所以西门子将会这样做,罗克韦尔将会这样做,等等。这有道理吗?所以我认为这是另一种方式,你可以进入企业,ServiceNow将会这样做。他们正在构建大量的副驾驶。这就是他们如何在他们当前行业之上创造另一个行业的方式,这几乎就像是一个AI劳动力行业。
是的。我对与他们所有人的合作伙伴关系感到非常兴奋。我只是非常兴奋,每次我看到他们,我就——我告诉他们,你坐在一个金矿上,你坐在一个金矿上。我的意思是,我真的很为他们感到兴奋。
Tim Arcuri:Jensen,你好。我是UBS的Tim Arcuri。我也有一个关于总可寻址市场(TAM)的问题,更多的是绿地与棕地的区别,因为到目前为止,H100基本上都是绿地。所以人们没有从A100中取出它们,然后用H100替换它们,B100可能是第一次,你会看到一些棕地升级,我们进去,我们取出A100,然后用B100替换它们?所以如果1万亿美元变成2万亿美元,你说的是4年的更换周期。你说的是5000亿美元,但很多增长来自于升级现有安装基础。我想知道你能否对此发表评论。
黄仁勋:是的,这是一个很好的问题。今天,我们正在升级数据中心中最慢的计算机,这将是CPU。所以这就是应该发生的事情。然后最终你会涉及到Amperes,然后你会涉及到Hoppers。
我确实相信,在五六七八年内,你会给你们——我们将会在——挑选你在外面,我不会挑选一个。我只是说在外部年份,你将开始看到我们自己基础设施的更换周期,显然,但,我不会认为那是资本的最佳利用。Amperes非常高效,你知道的。
Brett Simpson:嗨,Jensen。我是Arete Research的Brett Simpson,感谢你举办这两天的精彩活动。我的问题与推理有关。我想了解一下——你在B100的推理性能上给出了一些很好的数字,与H100相比。你对客户关于这个新平台的拥有成本有什么信息?你如何看待它与ASIC或其他推理平台在行业中的比较?谢谢。
黄仁勋:我认为对于大型语言模型来说,Blackwell配备了新的变换器引擎和NVLink,将非常非常非常难以克服。原因是一样的。问题的维度如此之大。TensorRT-LLM这个探索工具,我谈到的优化编译器。Tensor Cores下面的架构是可编程的。NVLink允许你将一堆GPU以非常低的开销连接在一起,基本上是没有开销。好的。所以64个GPU在程序上就像一个GPU一样。这是令人难以置信的。
所以当你有64个GPU没有开销,没有这个NVLink开销,如果你必须通过网络像以太网一样去做,那就完了。你什么都不能做。你只是浪费了一切。而且因为它们都必须相互通信,这叫做all2all。每当所有都必须相互通信时,最慢的链接就是瓶颈,对吧。
这就像在河的一边有一个城市,在河的另一边有一个城市,中间有一座桥,那就是吞吐量的定义。好的。而且那座桥将是以太网。一边是NVLink,另一边是NVLink,中间的以太网是没有意义的。
所以我们必须把它变成NVLink。现在我们有所有的GPU一起工作,一次生成一个Token。记住,Token不能——你不能一下子抛出一个Token,因为Token变换器必须一次生成一个Token。所以这是一个非常复杂的并行计算问题,好的。所以我认为Blackwell提高了很多标准。完全是山。ASIC或其他的,很难。
C.J. Muse:你好,Jensen和Colette。我是Cantor的C.J. Muse。谢谢你们的邀请。我的问题与定价策略有关。历史上,你谈到了买得越多,省得越多。但听起来Blackwell的初始定价可能比你们提供的生产力低一些。所以,当你考虑到可能是剃刀、剃刀片和销售软件和整个系统时,这可能会导致你以什么样的方式发展你的定价策略,以及我们应该如何考虑在这个结构内的规范化利润率?谢谢。
黄仁勋:我们创建的定价始终从TCO开始。我感谢你的评论,C.J。我们总是从TCO开始。然而,我们也希望TCO不仅仅是我们的主要客户群体。所以当客户——当你只有一个特定领域的客户时,比如分子动力学,那么如果它只是一个应用程序,那么你就基于那个应用程序设置TCO。可能是医学成像系统。
突然之间,TCO变得非常非常高,但市场规模相当小。在每一个过去的时代,我们的市场规模都在增长,不是吗?我们希望让整个市场都能负担得起Blackwell。所以在某种程度上,这是一个自我维持的问题。随着我们解决一个更大问题的TCO——更大的市场,那么一些客户会得到太多的价值,如果你愿意的话。
但这没关系。你简化了业务,有一个基本的产品,你能够支持一个非常大的市场。随着时间的推移,如果市场分化,我们总是可以分段,但我们今天离那还很远。所以我认为我们有机会创造一个为许多人提供非凡价值,为所有人提供极好价值的产品。这就是我们的目的。
Joseph Moore:嗨。我是摩根士丹利的Joe Moore。似乎你展示的最令人印象深刻的规格是关于GB200的,你刚刚描述了这是因为拥有更大的NVLink域的功能。你能对比一下你用GB200做的事情和GH200吗?为什么你认为这次可能会是一个更大的产品?
黄仁勋:哦,很好的问题。简单的答案是GH200,100,200,Grace Hopper,在它能够真正开始显著起飞之前,Grace Blackwell已经在这里了。而Grace Hopper有一个Hopper没有的额外负担。
Hopper正好接在Ampere后面。A100变成了H100,它们会变成B100,等等。所以那个特定的机箱或那个特定的用例相当成熟,我们会继续前进。软件是为它构建的。人们知道如何操作它等等。Grace Hopper有点不同,它解决了我们之前没有很好地解决的一类新应用。我早些时候提到了一些。多物理问题,CPU和GPU必须紧密合作,非常大的数据集等等。Grace Hopper非常适合。所以我们开始为它开发软件。
我给大多数客户的建议是,现在,只针对Grace Blackwell,我已经给了他们这个建议。所以他们用Grace Hopper做的一切都会在架构上完全兼容。这是一件美妙的事情。而且,无论他们买了什么,都是非常出色的,但我建议他们把所有精力都投入到Grace Blackwell中,因为它要好得多。
未识别的分析师:Jensen,Colette,感谢你们今天让我们来到这里。我想问一个关于机器人的问题。似乎每次我们回到GTC,你们都会在最后偷偷放一些东西。几年后,我们会说,哇,他已经谈论这个问题有一段时间了。我听到这周你们提到机器人可能即将迎来它的ChatGPT时刻。你能描述一下那意味着什么,以及你开始在哪里看到机器人的演变,就像我们的日常生活一样?那将非常有帮助。谢谢。
黄仁勋:好的,有几点。首先,我感谢你。两年前我展示了Earth-2。两年后,我们有了这个新的算法,能够进行3公里分辨率的区域天气预报。你需要的超级计算机是当前用于NOAA和欧洲等地进行天气模拟的计算机的25,000倍。3公里的分辨率非常高,就在你头顶上,好吗?而且天气预报还需要很多所谓的集合,因为世界看起来很混乱,你需要模拟很多分布,采样很多不同的参数,很多不同的扰动,试图找出那个分布,那个分布的中间可能就是天气模式。
好吧,如果它只需要这么多能量来做一次,他们就不会做超过一次。但是为了预测一周后的天气,特别是极端天气可能会发生如此巨大的变化,你需要很多所谓的成员,很多集合成员,很多采样。所以你基本上是在做天气模拟10,000次,好吗?而且因为我们训练了一个AI来理解物理,它必须是物理上可能的,它不能产生幻觉,所以它必须理解物理定律等等。所以两年前我展示了它,今天我展示了它,我们将其连接到世界上最值得信赖的天气来源,天气公司。所以我们将帮助人们在世界各地进行区域天气预报。
如果你是一家航运公司,你需要知道天气条件。如果你是一家保险公司,你需要知道天气条件。如果你在东南亚地区,你有很多飓风和台风等等,你需要一些这样的技术。所以我们将帮助人们适应他们的地区和他们的用例。
好吧,我几年前做了那件事。ChatGPT时刻的工作原理是这样的。退后一步,问问自己ChatGPT发生了什么?技术非常伟大,好吗。它真的令人难以置信。但它发生了几件事。首先,它从很多人类的例子中学习。我们写了这些话,对吧?它是我们的话。所以它从我们的人类例子中学习,并且它概括了。所以它不是重复回话。所以它可以理解上下文,它可以产生区域形式。它理解了上下文的含义,它适应了自己,好吗,或者它适应了当前的情况,上下文。然后第三件事是,它现在可以产生原始的代币。现在我要把所有东西都拿回来,用Token代替。使用我刚才使用的所有相同的话,但用代币替换单词。如果我能弄清楚如何与这台计算机交流,这个代币是什么意思?好吗,如果我能将运动标记化,好吗,就像当你做语音识别时,你将我的声音标记化一样。
就像当我们重建蛋白质时,我们将氨基酸标记化一样。你可以将几乎所有东西标记化。你可以以简单的方式表示每个数据块,好吗?所以一旦你可以标记化它,那么你就可以学习它。我们称之为学习它的嵌入,它的含义。所以如果我可以将运动标记化,好吗,我可以将关节运动学标记化,我可以学习并概括它,然后生成,好吗。我只是做了ChatGPT时刻,这有什么不同?计算机不知道。当然,问题空间要复杂得多,因为它是物理事物。所以,你需要这个东西叫做对齐。什么是ChatGPT的伟大发明,强化学习,人类反馈对齐。对吗?所以它会尝试一些东西。你说不,这不如这个好。它会尝试别的东西。你说不,这不如这个好。人类反馈,强化学习,它会接受那种强化并改进自己。
所以什么是Omniverse?好吧,如果它在机器人中,你将如何进行反馈?什么是关于反馈的?它是物理反馈。它概括了——它生成了一个动作去拿起一个杯子,但它打翻了杯子。它需要强化学习来知道何时停止。这有道理吗?所以那个反馈系统不是人类的。那个反馈系统是物理的。而且那个物理模拟反馈被称为Omniverse。所以Omniverse是强化学习,物理反馈,它将AI与物理世界联系起来,就像强化学习人类反馈将AI与人类价值观联系起来一样。你们跟着我吗?我只是用完全相同的概念描述了两个完全不同的领域。所以我所做的是概括了通用AI。通过概括它,我可以在别处重新应用它。所以我们早就注意到了这一点,我们开始为此做准备。现在你会发现Isaac Sim,它是Omniverse之上的体育馆,将对任何做这些机器人系统的人非常非常成功。我们为机器人创建了操作系统。我确定你们所有人都有公司的答案,但不幸的是,我只知道如何用一种极客的方式来回答这个问题。
Atif Malik:嗨。我是花旗集团的Atif Malik。我有一个问题给Colette。Colette,在你的幻灯片中,你谈到了Blackwell平台今年晚些时候的可用性。你能更具体一点吗?是第四季度还是第一季度?然后在供应链方面,新产品的包装,特别是B200 CoWoS-L,你是如何让你的供应链为新产品做好准备的?
Colette Kress:是的,让我从你的第二个问题开始,谈谈供应链的准备情况。这是我们为新产品上市准备了一年多的事情。我们感到非常荣幸能与我们的合作伙伴一起开发我们的供应链。我们继续努力提高弹性和冗余性。但是,你说得对,进入新的CoWoS领域,新的内存领域,以及我们正在构建的组件的数量和复杂性的体积。所以当产品准备好上市时,这一切都将就绪。我们的供应链也是我们今天早些时候谈到的一部分,谈论了合作伙伴将如何帮助我们进行液冷和额外的合作伙伴,他们将准备好在数据中心的完整建设方面。所以这是我们准备工作非常重要的一部分,以便于规划和处理我们Blackwell不同配置的所有内容。
回到你的第一个问题,即我们何时将产品推向市场?今年晚些时候,你会开始看到我们的产品上市。我们许多已经与我们谈过的客户谈到了设计,谈到了规格,提供了他们的需求愿望。这对我们开始供应链工作,开始我们的产量和我们将要做的事情非常有帮助。尽管如此,对于第一个真正上市的产品,可能会有一些限制,直到我们能够满足面前的需求。
黄仁勋:是的,那是对的。而且请记住,Hopper和Blackwell,它们被人们用于运营,人们需要今天运营。而且需求如此之大,对于Hoppers的需求。他们——我们的大多数客户已经知道Blackwell有一段时间了,只是让你们知道。好的,所以他们已经知道Blackwell。他们已经知道了时间表。他们已经知道了能力。已经有一段时间了。我们尽可能快地让人们知道,这样他们就可以规划他们的数据中心,并且注意到Hopper的需求并没有改变。而且原因是他们必须为今天服务的客户运营业务,而不是明年。
Atif Malik:好的。
Pierre Ferragu:我来自New Street Research。所以,关于Blackwell的一个极客问题。两个Dies之间的10太字节,你能告诉我们你是如何实现的吗?你在技术上投入了多少工作,从制造的角度来看,多年来一直努力实现这一点?然后你如何看待你的路线图,更长远地看,我们会不会看到越来越多的Dies聚集在一个单一的封装中?这是我问题的一方面,更多的是关于芯片和架构的。另一方面,你一定看到了所有这些模型,就像Sam Altman所说的,无知的面纱背后。所以你能告诉我们你看到了什么,以及你如何看待下一代模型影响你的架构?所以数据中心AI的GPU架构的方向是什么?
黄仁勋:是的,我先从第二个问题开始。
这是作为所有AI研究发生的平台的一件伟大的事情。所以我们有幸看到了所有即将到来的东西。当然,所有下一代模型都旨在将当前一代系统推向其极限。而且非常大的上下文窗口。
例如,非常大的状态空间向量,合成数据生成,基本上是模型之间的对话,强化学习,基本上是大型语言模型的AlphaGo,树搜索。这些模型将需要学会如何推理,进行多路径规划。所以不是一次性的,而是有点像我们认为我们必须通过我们的计划来工作。而且那个规划系统,那个推理系统,多步推理系统可能会相当抽象,路径可能会相当长,就像下棋一样。而且——但约束要描述起来要困难得多。所以这个研究领域的工作非常非常令人兴奋。
接下来几年,我们将看到的系统,一两三年内,与今天相比是难以想象的,因为我所描述的原因。人们对用于训练这些模型的互联网数据量有所担忧,但这不是真的。10万亿个标记很棒,但别忘了,合成数据生成,模型之间的对话,强化学习,你将生成的数据量,将需要两台计算机来训练彼此。
今天我们有一台计算机在数据上进行训练。明天它将是两台计算机,只是——对吧?别忘了。记住,AlphaGo。它是多个系统相互竞争——下棋,好吗,所以我们可以尽快做到这一点。所以一些真正令人兴奋的开创性工作即将到来。好的,我们确定的一件事是,我们的GPU的规模,他们想要更大。我们公司的SerDes是世界级的。NVIDIA的SerDes绝对是世界上最好的。数据速率和能量消耗,我们公司的数据速率,每比特的皮焦耳,非常好。这就是我们能够做到NVLink的原因。
记住,NVLink是因为我们无法制造一个足够大的芯片,所以我们把八个芯片连接在一起。这是在2016年。我们处于NVLink Gen 5。世界其他地方甚至还没有NVLink Gen 1。NVLink Gen 5允许我们将576个芯片连接在一起。它们对我来说是在一起的。数据中心如此之大,它必须如此紧密地连接在一起吗?不,根本不需要。所以你可以把它们分成576份。而且SerDes无论如何都非常低能量。现在我们可以制造更接近的芯片。现在,我们想要这样做的原因是因为它允许软件无法告诉它们之间的区别。当你打破芯片时,算法应该是构建最大的芯片,光刻技术可以制造,然后将多个芯片组合在一起。
但是,如果可能的话,用铜制造尽可能大的NVLink,因为你可以节省很多电力,你可以节省很多钱。你可以使其足够可扩展。现在,你有了一块巨大的芯片,上面有576个GPU芯片。
但这还不够。所以我们将不得不将多个芯片连接在一起。下一步是InfiniBand。接下来是你拥有的第二好的是Ethernet,上面有一个增强的计算层,我们称之为Spectrum X,这样我们就可以控制系统中的流量,这样我们就不会有这么长的尾巴。
记住,正如我所说的,最后一个人完成决定了计算机的速度。这不是平均吞吐量。这不像我们每个人单独访问超大规模,我们的平均吞吐量已经足够了。这真的是最后一个人完成那个部分产品,完成那个张量。其他人都在等他们。我不知道这个房间里有谁。那就是最后一个人,但我们希望那个人不会拖延,对吧。我们要确保最后一个人——我们把所有东西都推向中间。我们只希望有一个答案。它都会在正确的时间出现。好的。
所以那就是第二好的。然后你尽可能地扩展它,这将需要光学等等。那里有所有东西的位置。如果有人担心光学,不要担心。我们——我认为光学的需求非常高。对中继器的需求非常高。我们没有改变任何事情。我们所做的只是制造了更大的计算机,我们制造了更大的GPU。
我们能否再接受一个问题?这太有趣了。
Aaron Rakers:这将是买方的最后一个问题。
黄仁勋:来吧。
Aaron Rakers:哇,谢谢。Aaron Rakers在富国银行。我真的很感激你提供了这么多细节。我实际上要在此基础上提出一个问题,因为今天你谈到了以太网,以及Ultra。
黄仁勋:我非常看好以太网技术。
Aaron Rakers:是的。我有兴趣了解,NVLink如何通过576个GPU实现互连。这种布局架构的概念,在以太网的演变、你们的Spectrum-4产品、向800 Gbps的发展方面起着怎样的作用?换句话说,NVLink是否会在某些情景下与以太网形成竞争?
黄仁勋:不会。首先,构建大规模集成电路的算法实际上非常简单,即尽可能构建最大的芯片。我们生产的芯片已达到极限大小。其次,尽可能地将两个芯片连接起来。当两个芯片的连接成为可能时,我们就开始面临诸如NUMA效应和局部性效应等挑战。这时,NVLink就显得尤为关键。
拥有NVLink,我们就能以成本和功耗为前提,构建尽可能大的链接网络。我们坚持使用铜而非光纤连接多达576个GPU芯片(这相当于一个巨型芯片),是为了有效节能和降低成本,从而实现可扩展性。然而,仅靠576个GPU是远远不够的,我们需要更多的相互连接。
在这个层面上,InfiniBand是最优选择,其次是集成了加速计算层的以太网,即Spectrum X。这样,我们可以有效管理系统内部的数据流,避免数据滞后,优化整体计算速度。其实,每一种技术都有其应用场景,我们对光学技术的需求依然非常大,因此,不必担心对光学技术的需求。
Will Stein:关于阿联酋主权AI项目,能否具体说明英伟达打算如何操作?我想知道,我们该如何向老一辈,比如我91岁的母亲,解释什么是加速计算?
Jensen Huang:对于第二问题,在解释加速计算时,可以用”使用合适的工具完成相应的工作”来比喻。传统的通用计算就像是用同一个螺丝刀来完成所有工作,比如从起床刷牙到睡觉都在用螺丝刀,随着时间的发展和人类智慧的积累,我们使通用工具更加多功能——螺丝刀上加了刷子、绒毛等。
CPU在顺序任务处理上表现得很好,但是并不擅长并行处理。然而在大多数应用中,如Excel和大部分个人电脑应用,CPU的性能已经足够。但对于电脑图形学和视频游戏这样的新应用领域来说,有1%的代码决定了99%的运行时间。因此我们创造了一种擅长处理这个1%的代码的硬件,即使它在剩下的99%的代码上表现不佳。
这就是我们开发出针对分子动力学、医学成像、地震处理、人工智能等领域的加速计算。加速计算可以大幅度提升处理速度,这也是为什么加速计算、数据处理等领域可以获得巨大性能提升的原因。
每个国家都有自己的天然资源,那就是他们的知识产权,体现在自己的语言、历史、文化中,这些通常保存在国家档案馆,并已数字化,但并非公布在互联网上。我们认为这些国家应该利用这些数据资源创建自己的主权AI。
无论是印度、瑞典、日本还是其他国家,他们都意识到这些数据资源不应该免费流向外部,然后通过支付费用以AI形式再输入。因此,他们现在认识到应该保留自己的数据,推广和输出自己的AI,这是一个非常大的市场。我们关注遵守出口管制,并在某些国家可能提供些规格较低的产品,以确保能够支持全世界各国构建和应用AI。
黄仁勋:感谢大家。我们很感激各位的支持和关注。我们正处在一个非凡、特殊的时刻,见证了技术史上的一个重大转折点——计算方式的变革和软件新纪元的来临。你知道,软件是人类创造的最重要的技术之一,你正处于一个新的工业革命的开始。未来十年对我们所有人来说都将是重要的,我们期待与您一同迎接挑战,你绝对不想错过。非常感谢你们。