黄仁勋深度访谈:「Token经济」爆发,英伟达迈向10万亿美元市值的未来

瑾年说币3 小时前

作者:龙玥 来源:华尔街见闻

近日,英伟达 CEO 黄仁勋做客知名科技播客 Lex Fridman Podcast,围绕 AI 缩放定律(Scaling Laws)、算力与电力瓶颈、AI 工厂、公司未来展望以及 AI 对人类社会的影响等核心议题,进行了超两小时的深度对话。

Token 成全新商品,计算占全球 GDP 比重将翻百倍

黄仁勋的核心观点之一是,计算的本质已经发生了根本性跃迁——从过去人类预先录制、计算机负责检索的「存储系统」,转变为具备上下文感知能力的「生成系统」。更重要的是,计算机在现实经济中的角色发生了转变。

过去的计算机是检索系统,主要功能是文件存储。黄仁勋将其比喻为「仓库」,而仓库本身并不直接产生高额利润。如今,AI 计算机变成了「工厂」,并直接与企业的收入创造挂钩。他认为,AI 代工厂正在制造一种名为「Token」的商品,且这种商品已经被细分和定价。

「我们不仅看到这家代工厂在生产人们想要消费的商品,而且这些代工厂制造的 Token 对许多不同受众都极其有价值,甚至开始像 iPhone 一样出现分层:你有免费的 Token,有高级 Token,还有处于中间层级的 Token。」黄仁勋表示,「有人愿意为每一百万个 Token 支付 1000 美元,这个想法就在不远的将来,这不是会不会发生的问题,而是何时发生的问题。」

基于这种「Token 工厂」模式,计算设备完成了从成本中心向利润中心的跨越。黄仁勋笃定地推演了这一宏观趋势:「如果生产力大幅提升,全球 GDP 将加速增长。我完全确信,未来用于计算的 GDP 占比将是过去的 100 倍。」

迈向 10 万亿美元市值?黄仁勋:增长是必然的

基于「Token」的经济理论,黄仁勋回答了关于英伟达能否迈向 10 万亿美元新市值巅峰的讨论。他表示:「这个数字(10 万亿)只是一个数字。」但他明确指出:「英伟达的增长极大概率会发生,在我看来是必然的。」未来实现 3 万亿美元营收的体量并非不可能。

黄仁勋深度访谈:「Token 经济」爆发 英伟达 10 万亿是必然

电力瓶颈解法:「用好闲置电」、打造「优雅降级」的数据中心

针对 AI 扩张的瓶颈问题,黄仁勋直言:「电力是个担忧,但不是唯一担忧。」他给出两条并行路径:一是把能效继续推高;二是想办法获得更多电力。

在能效方面,他强调指标是「每瓦每秒 token 数」,并通过「极致协同设计」提升能效:「我们的计算机价格在上升,但 token 生成效率上升得更快,所以 token 成本在下降……每年下降一个数量级。」

在如何获取更多电力方面,他提出一个具体思路:电网按极端峰值设计,绝大多数时间存在闲置。黄仁勋称:「目前的电网是按照极端天气的最高峰值(加上安全余量)来设计的。99% 的时间里,我们的电网都没有达到最坏情况。」大多数时候可能只在峰值的 60% 左右运行。

为利用这部分闲置能源,他认为需要改变云厂商与电力公司之间严苛的供电合同,放弃对「六个九」(99.9999%)绝对可用性的盲目追求。「我们需要构建能够『优雅降级』(gracefully degrade)的数据中心。」黄仁勋解释道,「当电网说『我们需要把你的电力降到 80%』时,数据中心可以把关键负载转移,或者降低计算速率。计算服务质量会轻微下降,但我们消耗的能源减少了。」

供应链与内存:汇聚 200 家供应商,提前三年布局 HBM

面对市场对 ASML 光刻机、台积电 CoWoS 先进封装等环节可能制约 AI 产能的担忧,黄仁勋表示并不焦虑。他说:「我告诉他们我需要什么,他们告诉我打算怎么做,我相信他们。」

在系统工程上,英伟达正在深刻改变基础设施的制造模式。黄仁勋透露,仅一个 Vera Rubin 机架就包含 130 万到 150 万个组件,背后汇聚了 200 家供应商的技术。

为了匹配这种极高的互联密度(如 NVLink-72),过去在数据中心现场拼装零组件的传统模式已彻底失效。英伟达将数据中心的「超算组装」前置到了供应链的「超算制造」环节。现在,机架必须在供应链中建好,每次以两三吨的重量整机发货。这意味着供应链在整机出厂前的测试阶段,自身就需要具备吉瓦(GW)级的庞大电力储备。

而在最容易卡脖子的内存(Memory)领域,黄仁勋透露,大约三年前,HBM(高带宽内存)的使用率极低,几乎只在极少数超算中露面。但他当时成功说服了多家内存大厂的 CEO,让他们相信 HBM 将是未来数据中心的主流,并促使产业链果断投资扩产。

此外,他还打破常规,推动供应商将原本专属于手机的低功耗内存(LPDDR)改造并引入超算领域。

「推理是思考」:从训练、测试时扩展到「代理式扩展」

对于 AI 缩放定律(Scaling Laws),黄仁勋把 AI 扩张拆成四条「扩展规律」:预训练、后训练、测试时扩展、代理式扩展。

他回顾「数据枯竭」担忧时表示:「我们会继续扩大训练数据……很多会是合成数据。」并给出判断:「训练不再受数据限制,数据将受限于算力。」

对推理侧的算力强度,他说得更直接:「推理就是思考,我认为思考很难……怎么可能是算力轻的?」他认为测试时扩展包含「推理、规划、搜索」等,会推动推理算力需求上升。

最深护城河、太空算力痛点与评价马斯克

当被问及英伟达最大的护城河时,黄仁勋明确指向了 CUDA 庞大的装机量与信任生态。

「这不是 3 个人成就的 CUDA,而是 43000 名员工共同推动的。」黄仁勋强调,这种护城河建立在数百万开发者对英伟达持续优化底层的信任之上,辅以横向整合进入全球各类云厂商、OEM 和边缘设备的极广生态。

在算力基建的前沿探索上,针对将数据中心搬上太空以解决能源分配的设想,黄仁勋证实英伟达 GPU 已经进入太空,但当前主要用于卫星高分辨率图像的边缘端筛选。

对于构建大规模太空数据中心,黄仁勋直言其存在核心的物理痛点:「太空中没有传导,没有对流,只能靠辐射散热。虽然极地有 24/7 的太阳能,但我们需要巨大的散热器。」现阶段最务实的做法,仍是先榨干地球上的闲置电力。

此外,任何算力蓝图的落地都需要极致的工程执行力。针对马斯克旗下 xAI 仅用 4 个月便建成了拥有 10 万块 GPU 的 Colossus 超算中心,黄仁勋在市场化基建层面给出了极高评价。

他将马斯克的成功归结为第一性原理思维与极简主义。「他质疑一切:这有必要吗?必须这样做吗?需要花这么长时间吗?」

黄仁勋表示,「埃隆在众多不同领域都有极深的造诣,同时他也是一个非常优秀的系统思考者。」他继续评价道,「他能够质疑一切,直到把一切缩减到不能再减的最低必要限度……他亲自出现在行动的第一线。当你以如此强烈的紧迫感亲自行动时,会促使其他所有人也以紧迫感行动。」

未来只招会用 AI 的人?「全球程序员将从 3000 万暴增至 10 亿」

针对全球劳动者对 AI 技术的焦虑,黄仁勋给出了一个非常务实的标准。他直言,如果今天要在两名应届毕业生中做选择,他一定会雇佣那个「AI 专家」,而非对 AI 一窍不通的人。

黄仁勋强调,这一准则不仅限于技术岗位,而是涵盖了会计师、律师、销售人员、供应链经理、药剂师,甚至是电工和木匠。在他看来,每个职业、每个层级都没有例外,善用 AI 的人将展现出更高的交付价值。

他进一步厘清了「被取代」的边界:如果一个人的工作本质上就是一系列「任务」(Task),即任务本身就是你贡献的全部价值,那么被 AI 颠覆几乎是必然的。但如果你的工作具有更深层的「目标」(Purpose),你就可以利用 AI 自动化处理那些常规琐事,从而从一名单纯的「执行者」跨越成为所属行业的「创新者」。

对于那些尚未起步的人,黄仁勋给出了最令人宽慰的建议:「如果你不知道如何使用 AI,你大可以去问 AI『我该如何使用你』。它会从头开始引导你完成全过程。」他认为,现在起步的门槛已经降至零,唯一的障碍只在于你是否决定开始。因为在这个时代,等待的成本正在随着 AI 的进化而与日俱增。

对于程序员,黄仁勋抛出了一个震撼的观点:「英伟达软件工程师的数量将会增长,而不是减少……如果编程的定义是『描述规范让计算机去构建』,那么能做到这一点的人数,刚刚从 3000 万变成了可能达到 10 亿。未来每个木匠都会是程序员,每个水管工都会因此疯狂。」

在谈及 AGI(通用人工智能)的时间表时,如果将 AGI 定义为一个能够自主开发应用并实现盈利的系统,黄仁勋表示:「我认为就是现在。我认为我们已经实现了 AGI。」他设想了一个由 AI 自主创建的 Web 服务或数字影响力应用,突然获得数十亿用户使用并赚取利润的场景,这在当下已经具备技术可行性。

黄仁勋深度访谈:「Token 经济」爆发 英伟达 10 万亿是必然

访谈全文如下:

黄仁勋访谈文字稿:英伟达——4 万亿美元的公司与 AI 革命 | 莱克斯·弗里德曼(Lex Fridman)播客 #494

介绍

莱克斯·弗里德曼

(00:00:00) 接下来是与英伟达首席执行官黄仁勋的对话。英伟达是人类文明史上最重要、最具影响力的公司之一,它是推动 AI 革命的引擎。英伟达的巨大成功在很大程度上可以直接归功于黄仁勋纯粹的意志力,以及他作为领导者、工程师和创新者所做出的众多卓越押注和决策。这里是莱克斯·弗里德曼播客。亲爱的朋友们,现在有请黄仁勋。

黄仁勋深度访谈:「Token 经济」爆发 英伟达 10 万亿是必然

极限协同设计与机架级工程

莱克斯·弗里德曼

(00:00:33) 您将英伟达推向了 AI 的新时代,将焦点从芯片级设计转移到了机架级设计。

莱克斯·弗里德曼

(00:00:42) 我想可以公平地说,长期以来,英伟达的制胜法宝在于构建尽可能完美的 GPU。你们现在依然如此,但如今已经将此扩展到了对 GPU、CPU、内存、网络、存储、供电、冷却、软件、机架本身、你们宣布的计算舱(Pod),甚至整个数据中心进行极限协同设计。让我们谈谈极限协同设计。协同设计一个拥有如此多复杂组件和设计变量的系统,最困难的部分是什么?

黄仁勋

(00:01:11) 谢谢你的提问。极限协同设计之所以必要,是因为现在的问题已经无法装入单台计算机并仅靠单个 GPU 来加速了。你试图解决的问题是,你希望计算速度的提升能超过你增加的计算机数量。假设你增加了 1 万台计算机,但你希望速度提升一百万倍。突然之间,你必须提取算法,将算法拆解、重构,对流水线进行分片,对数据进行分片,对模型进行分片。当你以这种方式分布式地处理问题时,不仅仅是扩大问题的规模,而是分散问题,那么所有环节都会成为瓶颈。

黄仁勋深度访谈:「Token 经济」爆发 英伟达 10 万亿是必然

黄仁勋

(00:02:03) 这就是阿姆达尔定律(Amdahl's law)的问题:某项任务的加速幅度取决于它在总工作量中所占的比例。如果计算占问题的 50%,即使我将计算速度无限提升(比如一百万倍),整个工作量的速度也只提升了两倍。现在突然之间,你不仅要分配计算任务、以某种方式对流水线进行分片,还必须解决网络问题,因为所有这些计算机都连接在一起。在我们这样的规模下进行分布式计算,CPU 是个问题,GPU 是个问题,网络是个问题,交换机也是个问题。在所有这些计算机上分配工作负载同样是个问题。

黄仁勋

(00:02:57) 这是一个极其复杂的计算机科学问题。我们必须发挥各种技术的威力。否则,我们只能线性地扩展,或者依靠摩尔定律的能力来扩展,而随着登纳德缩放定律(Dennard scaling)的放缓,摩尔定律已经在很大程度上停滞了。

黄仁勋如何管理英伟达

莱克斯·弗里德曼

(00:03:16) 这其中肯定有权衡。而且你们涉及了完全不同的学科。我确信你们在这些领域都有专家:高带宽内存、网络和 NVLink、网卡、光学和铜缆连接、供电、冷却等等。这些都是世界级的专家。你是如何把他们聚在一个房间里弄清楚——

黄仁勋

(00:03:34) 这就是为什么我的管理团队这么庞大。

莱克斯·弗里德曼

(00:03:37) 专家和通才的合作过程是怎样的?当你清楚必须要把哪些东西塞进一个机架时,你们是如何把机架组装起来的?把它们全部设计在一起的过程是怎样的?

黄仁勋

(00:03:51) 首先我们要问:什么是极限协同设计?我们正在对从架构到芯片、到系统、到系统软件、再到算法和应用程序的整个软件栈进行优化。这是一个层面。我们刚才谈论的第二个层面,超越了 CPU、GPU、网络芯片、向上扩展(scale-up)交换机和向外扩展(scale-out)交换机。当然,你还得把供电和冷却等因素包括进去,因为所有这些计算机都极其耗电。它们完成大量工作,能效非常高,但总体上仍然消耗大量电力。所以第一个问题是:它是什么?

黄仁勋

(00:04:34) 第二个问题是:为什么需要它?我们刚刚讨论了原因。你希望分配工作负载,使得收益超过单纯增加计算机数量的收益。第三个问题是:如何实现?你是怎么做到的?

黄仁勋

(00:04:51) 这可以说是这家公司的奇迹。当你设计一台计算机时,你必须有一个计算机操作系统。当你设计一家公司时,你应该首先思考你想让这家公司产出什么。我见过很多公司的组织架构图,它们看起来都一样。汉堡型组织架构图、扁平型组织架构图,以及汽车公司的组织架构图,看起来如出一辙。这对我来说毫无意义。一家公司的目标是成为产出成果的机器、机制和系统。这个产出就是我们想要创造的产品。公司架构的设计应该反映它所存在的环境。

黄仁勋

(00:05:36) 这几乎直接决定了你应该如何设置组织架构。直接向我汇报的管理团队有 60 人。我不会和他们进行一对一的会议,因为那是不可能的。如果你想完成工作,你的团队里就不可能有 60 个人还能一一对谈——

莱克斯·弗里德曼

(00:05:51) 但你依然有 60 个直接下属,并且跨越了——

黄仁勋

(00:05:53) 还要更多。

莱克斯·弗里德曼

(00:05:54) 更多。而且大多数明星员工至少都涉足工程领域。

黄仁勋

(00:05:59) 几乎所有人都是。有内存专家,有 CPU 专家,有光学专家。

莱克斯·弗里德曼

(00:06:06) 难以置信。

黄仁勋

(00:06:06) 还有 GPU、架构、算法、设计等领域的专家。

莱克斯·弗里德曼

(00:06:11) 所以你时刻关注着整个技术栈,并且必须就整个技术栈的设计进行激烈的讨论?

黄仁勋

(00:06:18) 从来没有哪次对话是单人进行的。这就是为什么我不做一对一会议。我们提出一个问题,然后所有人一起攻克它。因为我们在做极限协同设计。毫不夸张地说,公司一直都在进行极限协同设计。

莱克斯·弗里德曼

(00:06:33) 即使你们在讨论一个特定的组件,比如冷却、网络,所有人也都在旁听?

黄仁勋

(00:06:40) 完全正确。

莱克斯·弗里德曼

(00:06:41) 并且他们可以提出意见:「这不适合配电。这不适合——」

黄仁勋

(00:06:45) 正是如此。

莱克斯·弗里德曼

(00:06:45) 「……这不适合内存。这不适合那个。」

黄仁勋

(00:06:49) 完全正确。谁想不听就可以不听。原因在于,团队里的人知道什么时候该集中注意力。如果这件事他们本可以做出贡献却没有做,我会点名批评他们。所以我会说:「嘿,快来,加入讨论。」

莱克斯·弗里德曼

(00:07:07) 正如你所说,英伟达是一家适应环境的公司。你觉得在哪个时间点可以说环境发生了改变,公司开始悄悄地适应?从早期用于游戏的 GPU,到深度学习革命的早期,再到现在我们开始将其视为一个 AI 工厂?英伟达是做什么的?它生产 AI,让我们建立一个生产 AI 的工厂吧。

黄仁勋

(00:07:32) 我可以系统地推理这个过程。我们最初是一家加速器公司。但加速器的问题在于应用领域太窄了。它的优势是针对特定工作进行了极度的优化。任何专家都有这个优势。极度专业化的问题在于,你的市场范围更窄,但这也没关系。真正的问题在于,市场规模也决定了你的研发能力。而你的研发能力最终决定了你在计算领域可能产生的影响力。当我们最初作为一个非常具体的加速器起步时,我们一直知道那是我们的第一步。

黄仁勋

(00:08:23) 我们必须找到一种方法成为加速计算公司。问题是,当你成为一家计算公司时,目标变得太过通用,这削弱了你的专业性。我把这两个实际上存在根本冲突的词连在了一起。我们作为计算公司做得越好,作为专家的表现就越差。我们越是专家,进行整体计算的能力就越弱。我故意把这两个词连在一起,这意味着公司必须一步一步地找到那条极其狭窄的道路,既要扩大我们的计算范围,又不能放弃我们拥有的最重要的专业能力。我们超越加速器迈出的第一步,是发明了可编程像素着色器。

黄仁勋

(00:09:13) 这是迈向可编程性的第一步。这是我们向计算世界进军的第一段旅程。我们做的第二件事是将单精度浮点数(FP32)引入我们的着色器。支持 IEEE 标准的 FP32 是朝着计算方向迈出的一大步。这也是为什么所有从事流处理器和其他类型数据流处理器研发的人发现了我们。他们说:「突然之间,我们也许可以使用这个计算密集度极高、且兼容 IEEE 标准的 GPU 了。」

黄仁勋

(00:09:55) 我可以把以前在 CPU 上编写的软件拿过来,看看能不能用 GPU 来运行。这促使我们在 FP32 之上添加了 C 语言特性,我们称之为 Cg。Cg 的发展路径最终将我们引向了 CUDA。一步一步地,我们将 CUDA 引入了 GeForce,这是一项极具挑战的战略决策,因为它耗费了公司大量的利润,当时我们根本负担不起。但我们还是这样做了,因为我们想成为一家计算公司。计算公司必须有计算架构。计算架构必须兼容我们构建的所有芯片。

莱克斯·弗里德曼

(00:10:42) 能详细讲讲那个决定吗?把 CUDA 放进 GeForce,负担不起却依然决定这么做?你能解释一下这个决定吗?为什么敢于做出这样的选择?

黄仁勋

(00:10:53) 那是第一个几乎可以说是关乎生死存亡的战略决策。

莱克斯·弗里德曼

(00:11:06) 给不了解这段历史的人剧透一下,后来证明这是公司历史上做出的最辉煌、最睿智的决策之一。CUDA 成为了这个 AI 基础设施世界中令人难以置信的计算基础。所以设定一下背景,这最终被证明是一个好决定。

黄仁勋

(00:11:27) 是的,后来证明这是一个好决定。事情是这样的。我们发明了这个叫 CUDA 的东西,它扩大了我们的加速器可以加速的应用程序范围。问题是,我们如何吸引开发者来使用 CUDA?因为计算平台的核心是开发者。开发者不会仅仅因为一个平台能执行一些有趣的操作就跑过来。他们来到一个计算平台,是因为它的装机量大。因为开发者和所有人一样,想要开发能触及大量用户的软件。装机量实际上是架构中最重要的一部分。这个架构本身可能会招致大量的批评。

黄仁勋

(00:12:18) 例如,没有哪个架构受到的批评比 x86 更多,它被认为是一个不够优雅的架构,但它却是当今的定义性架构。这是一个例子。实际上,许多由世界上最聪明的计算机科学家设计的极其优雅的 RISC 架构都在很大程度上失败了。我举了这两个例子,一个是优雅的,另一个仅仅是勉强能用,然而 x86 存活了下来,原因在于——

莱克斯·弗里德曼

(00:12:58) 装机量就是一切。

黄仁勋

(00:12:59) 装机量定义了架构。其他一切都是次要的,明白吗?当时还有其他架构,CUDA 出来了,OpenCL 也在。有几个竞争的架构。但我们做出的正确决定是,我们说:「倾听,归根结底这是关于装机量的问题,我们能把新计算架构推向世界的最好方法是什么?」那个时候,GeForce 已经取得了成功。

黄仁勋

(00:13:29) 我们每年已经能卖出数百万个 GeForce GPU。我们说:「我们应该把 CUDA 放到 GeForce 上,把它放进每一台 PC 里,不管客户用不用,并把它作为培养我们装机量的起点。」与此同时,我们去吸引开发者,去大学里写书、开课,把 CUDA 放到各个地方。渐渐地,人们发现了它。当时 PC 是主要的计算工具,还没有云,我们可以把一台超级计算机交到学校里每个研究员、每个科学家、每个工科学院、每个学生的手中。最终,奇迹一定会发生。

黄仁勋

(00:14:15) 问题在于,CUDA 极大地增加了 GPU 这个消费级产品的成本,完全吞噬了公司所有的毛利润。那时候公司市值大概是 80 亿美元?或者是六七十亿美元?当我们推出 CUDA 后,我意识到它会增加很多成本,但这是我们坚信的东西。我们的市值一度跌到了大概 15 亿美元。我们在谷底徘徊了一段时间,然后慢慢爬了回来,但我们坚持在 GeForce 上搭载 CUDA。我总是说英伟达是 GeForce 建立起来的殿堂,因为是 GeForce 把 CUDA 带给了所有人。

黄仁勋

(00:15:10) 研究人员、科学家,他们之所以在 GeForce 上发现 CUDA,是因为他们中很多人也是游戏玩家。很多人反正也要自己组装 PC。在大学实验室里,很多人使用 PC 组件自己搭建集群。我们就是这样起步的。

莱克斯·弗里德曼

(00:15:31) 然后这成为了深度学习革命的平台和基础。

黄仁勋

(00:15:35) 那也是一个非常伟大的观察结果。

莱克斯·弗里德曼

(00:15:38) 在那个生死存亡的时刻,你还记得那些会议是什么样的吗?作为一家公司决定拿一切去冒险,讨论的情形是怎样的?

黄仁勋

(00:15:48) 我必须向董事会表明我们想做什么,管理团队也知道我们的毛利率会被压垮。你可以想象这样一个世界:GeForce 背负着 CUDA 的成本,但没有游戏玩家欣赏它,也没有玩家愿意为它买单。他们只愿意付特定的价格,根本不在乎你的成本是多少。我们将成本增加了 50%,而我们原本是一家毛利率 35% 的公司。所以做出这个决定非常艰难。但你可以想象,总有一天它会进入工作站,进入超级计算机,在这些领域,也许我们能获取更高的利润。

黄仁勋

(00:16:36) 所以你可以用理性的推导让自己觉得能承受这个代价,但这仍然花了十年时间。

莱克斯·弗里德曼

(00:16:45) 那更多是与董事会沟通说服他们,但在心理层面,随着英伟达不断做出预测未来的大胆押注,并在一定程度上特别是现在定义了未来。我想向您请教一些智慧,关于您是如何有能力做出这些决策,带领公司实现跨越的?

黄仁勋

(00:17:14) 首先,我有极强的好奇心。在某个时刻,会有一个推理系统非常清晰地使我确信这个结果将会发生。这必然会发生。所以在我的脑海中我是坚信的,当我内心坚信时,你也知道那是怎样的。你在脑海中显化了一个未来,那个未来如此令人信服,它不可能不发生。在这中间会有很多磨难,但你必须坚持你的信念。

莱克斯·弗里德曼

(00:17:52) 所以你设想了未来,本质上从工程的角度,你将它变成了现实?

黄仁勋

(00:17:59) 是的。你要推理如何到达那里。你要推理它为什么必须存在。我们在这里一起推理。管理团队会去推理。我会花很多时间去推理。下一部分可能是一项管理技能。通常在领导层中,领导者会保持沉默,或者他们了解到一些事情,然后发表一些宣言:「这是全新的一年,到明年年底我们要有一个全新的计划。」这里进行大裁员,那里进行大架构调整,提出新的使命宣言,设计新标识之类的东西。

黄仁勋

(00:18:43

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场