AGI时代来临:红杉年度大会揭示AI产业最前沿的13场对话
2026年4月底,红杉资本(Sequoia Capital)在旧金山举办了第四届AI Ascent大会。这场大会邀请了OpenAI、DeepMind、Anthropic、NVIDIA、Waymo等AI产业核心公司,也包括ElevenLabs、XBOW、Recursive Intelligence、Starcloud等押注新兴方向的创业公司。13场对话横跨基础模型、编程范式、机器人学、自动驾驶、芯片设计、太空算力和新型计算架构,基本覆盖了当下AI产业最前沿的几条主线。
相比往年,这一届AI Ascent的基调更加直接:AI已经不再只是提升效率的工具,而是开始进入真实工作流,接管一部分过去只能由人完成的复杂任务。红杉在开场演讲中将其称为“功能性AGI”的到来——不是说机器已经在所有维度上等同于人类,而是从商业和生产力角度看,长程智能体已经跨过了从演示到可用的门槛。
这也是本次大会最核心的背景:当智能开始变得廉价、可调用、可规模化,AI的竞争焦点正在从“模型能不能做”转向“如何把它接入真实世界”。软件、服务、组织、硬件、能源、安全和物理空间,都可能因此被重新设计。
红杉试图讲述的故事很清晰:智能不再是奢侈品,而正在变成一种新的工业原料。下一个阶段真正重要的,或许不是谁拥有更聪明的模型,而是谁能更快理解客户、重组流程、调度agent,并把这种廉价智能转化为可持续的商业系统。
因此,这场大会讨论的并不只是AI技术的下一步,而是一个更大的问题:当机器可以承担越来越多脑力劳动时,人类、公司和社会该如何重新定义自己的价值。
贯穿全场的几条主线
第一,智能正在变成一种大宗商品。
红杉把这一转变类比为19世纪末的“铝”:它曾经比黄金还贵,却因为电解法的普及,在几十年内变成随手可得、随处可用的工业材料。今天,PhD级别的专业知识、过去定义中产阶层竞争力的认知壁垒,可能正在经历类似的命运。高级智力不再天然稀缺,而是开始被模型大规模生产、调用和分发。
第二,瓶颈正在从机器转向人。
Greg Brockman说出了本届大会上被反复引用的一句话:当agent能够自主工作时,人类注意力将成为整个经济体中最稀缺的资源。Karpathy则用更直白的方式表达了同一个判断:当机器可以处理几乎所有执行细节时,人类唯一不能丢掉的能力,就是弄清楚自己到底想要什么。问题不再是机器能不能做,而是人类能不能提出正确目标、判断结果是否可靠,并决定什么值得被完成。
第三,编程正在被解决,组织还没有。
Anthropic内部已经实现了大量代码由模型生成,不同agent甚至可以在Slack上自主协作。Boris Cherny的判断更进一步:真正的护城河不再是某一个模型版本,而是组织架构对AI的“原生化”程度。对现有公司而言,这是一个并不友好的结论——因为差距不只来自工具使用熟练度,而来自公司是否愿意围绕agent重新设计流程、权限、协作方式和管理结构。
第四,AI正在从数字世界回到物理世界。
Jim Fan的机器人、Waymo的2000万次自动驾驶乘车、ElevenLabs的情感化语音,从不同侧面说明,AI已经不再只是处理文本、代码和图像的屏幕工具,而是开始理解并介入光、声、力、运动和空间。过去十年,“软件吞噬世界”是主线;接下来,AI可能会直接进入实体世界,改变汽车、工厂、机器人、语音交互和物理制造本身。
第五,算力的尽头在物理底层。
当地面数据中心的土地、电力、散热都开始触顶,一批更激进的公司给出了不同解法:Starcloud想把芯片送上太空,Recursive让AI自主设计芯片,Unconventional AI试图绕开冯·诺依曼架构去模仿大脑,Flapping Airplanes则直接质疑“暴力scaling”本身——如果人类只用少得多的数据就能学会同样的技能,那么今天的AI算法可能从根上就过于低效。算力竞争的终点,正在从买更多GPU,走向能源、芯片、架构和数据效率的底层重构。
第六,安全已经进入“AI vs AI”的不对称战场。
XBOW的智能体登顶全球白帽黑客排行榜,意味着AI已经不只是安全研究员的辅助工具,而是能够独立完成漏洞发现、验证和利用的自主攻击系统。更严峻的是,随着开源模型能力提升,这类攻击能力可能在未来6到9个月内快速扩散。网络安全不再是人类黑客之间的攻防,而是一场倒计时已经启动的AI军备竞赛。
把这些线索拼在一起会发现,2026年的AI行业正处在一个并不舒服的位置:技术能力已经远远跑在产品形态、组织结构和社会规则前面。模型每天都在变强,但承接它的“容器”——无论是企业流程、应用界面,还是人类自身的注意力——都还没有跟上。
整场大会的讨论,本质上都在回答同一个问题:在一个机器可以完成越来越多脑力劳动的世界里,人类还剩下什么?
红杉给出的答案有些反直觉:是情感,是信任,是那些无法被规模化生产的东西。Brockman的答案是“你想要什么”,Karpathy的答案是“你能否判断机器做得对不对”。这几个答案最终指向同一件事:当智能本身不再稀缺,意图、判断和关系将成为新的硬通货。
论坛梗概
主旨演讲 红杉合伙人开幕演讲:这就是AGI
演讲者Pat Grady、Sonya Huang、Konstantine Buhler是红杉资本(Sequoia Capital)AI投资条线的三位核心合伙人。Sonya Huang是2022年那篇刷屏全球的Generative AI: A Creative New World的作者,被视为最早系统看多生成式AI的机构投资人之一。三人共同主笔了2026年的This is AGI一文,是这场大会的思想框架来源。红杉资本本身是硅谷历史最悠久的顶级风投,早期投过Apple、Google、Nvidia、Stripe、OpenAI等公司。
AI是一场彻底颠覆信息处理本质的“计算革命”,而非仅仅加速分发的“通信革命”。以往的互联网和移动端只改变了信息的传播路径,而AI改变了信息生成的底层逻辑,导致开发者构建应用的floor(技术底座)每天都在发生位移。这一判断的重要性在于:在基础不稳的“暴雨时刻”,传统的稳定技术栈已成过去,开发者必须学会与不断演进的模型底座共舞。
AI将通过直接交付“专业服务”切入一个比传统软件大十倍的10万亿美元市场。全球软件市场TAM(潜在市场总额)仅为数千亿美元,而仅美国法律服务这一个垂直领域就达4000亿美元,规模已等同于整个软件行业。这主张了一个关键转型:AI的商业价值不再是作为工具卖给人类,而是直接以agent(智能体)形态去接管并交付原本由人类专家完成的高价值工作。
从商业实战看,能够自主应对失败的长航时agent标志着AGI(通用人工智能)已经降临。如果一个系统能被派去执行任务、在失败中自我修复并坚持到终点,它在功能上就已经等同于AGI。这一判断反直觉地提醒我们:别再纠结学术定义,具备独立执行能力的AI已经从“更快的马”进化成了改变竞争维度的“汽车”,效率已实现10到40倍的跨越。
在底层能力瞬息万变的时刻,建立护城河的唯一逻辑是“极端贴近客户”。MAD战略——Moats(护城河)、Affordance(示能性,指产品直观易用的程度)和Diffusion(扩散)——主张用customer-back(由客户需求倒推)而非tech-out(由技术导出)来锁定价值。由于人的需求比模型能力的变化要慢得多,这种对客户的深度包裹比追逐模型更具持久性。
Agent的自主性正在从“分钟级助手”向量级跨越为“小时级自主员工”。衡量模型在复杂任务中保持正确轨道时间的meter chart(任务持久性指标)已从一年前的分钟级飞跃至现在的数小时,足以支持无需人类审核的dark factories(暗工厂,指完全自主运行的业务流程)。这意味着生产力瓶颈已被打破,类似“6周内重写800万行代码”的超常迭代正成为常态。
人类社会正处于“认知工业革命”的前夜,机器将承担全球99.9%的脑力劳动。正如工业革命用发动机取代了99%的体力,未来绝大部分的分析、决策和创作也将由神经网络承担。这一判断的主张在于:智能将不再是人类的垄断资源,而是一种可以被无限规模化生产、按需调用的低成本工业级消耗品。
高级智力技能即将迎来“铝的时刻”,从昂贵的奢侈品彻底沦为廉价的大宗商品。曾经比金子还贵的铝,因electrolysis(电解法,指分离物质的化学工艺)的普及而变得随手可弃,AI对PhD(博士)级知识的瞬时调用也将产生同样效果。这预示了一个残酷的未来:多年积累的专业知识壁垒可能在瞬间崩塌,智力本身将不再具有稀缺溢价。
当智力全面平庸化后,人际关系和情感连接将成为人类社会唯一的真实价值锚点。摄影术曾促使艺术从写实转向表达灵魂的印象派,同样的,AI对效率的最优解往往呈现出超越人类直觉的“异形空间”。最终的结论反直觉却深刻:在一个机器负责所有工作的未来,唯有人与人之间的信任和情感,才是无法被机器规模化生产的终极硬通货。
如果只能记住这场对话的一件事,是什么?
以前值钱的聪明才智很快会变得像塑料袋一样便宜,未来真正让你保持竞争力的不再是能解决难题的脑子,而是能理解他人并建立信任的情感。
模型与认知 Andrej Karpathy:从Vibe Coding到Agent工程(OpenAI创始团队)
演讲者Andrej Karpathy是AI圈最有影响力的"教育型科学家"。OpenAI创始团队成员,后任Tesla AI总监负责自动驾驶视觉系统,2024年离开Tesla创办AI教育公司Eureka Labs。他在YouTube上手把手讲解神经网络的系列视频是无数AI工程师的入门教材。“Software 2.0”“Vibe Coding”等关键概念都是他造的词。
即使是顶级专家也会在AI浪潮中感到“落后”,因为技术的演进已从辅助工具跨越到了自主系统。
讲者在2026年初发现自己已不再需要修改AI生成的代码块,只需信任系统即可完成复杂任务。这一判断的重要性在于:当AI能够实现自我纠错和闭环交付时,原本依靠经验积累的开发者“底线”被暴力拉升,个人学习速度已很难追上技术底座的位移速度。
现代计算正进入Software 3.0时代,LLM本质上是一个以context为杠杆的新型计算机。
Software 1.0是写代码,2.0是训练权重,而3.0则是通过prompting(提示词)在context(上下文窗口,模型处理信息时的内存空间)中进行编程。这意味着安装软件不再需要编写复杂的兼容脚本,只需把一段说明文字“喂”给agent即可,精确的细节拼写已不再是核心竞争力。
许多现有的应用架构正变得“多余”,因为AI已经具备了在原始数据层直接进行处理的能力。
讲者发现自己辛苦开发的菜单生成应用变得毫无意义,因为模型现在能直接在照片上进行像素级的渲染叠加。这主张了一个深刻的变化:AI不应只是用来加速旧有的业务逻辑,我们必须意识到中间层的消失意味着许多传统产品形态已经失去了存在的物理基础。
AI的能力呈现出“锯齿状”,它只在能够被verify的领域展现出超人智能。
模型能重构十万行代码,却可能在计算“strawberry中有几个r”这种简单常识上翻车。这是因为模型主要通过RL(强化学习,一种利用奖励信号引导模型进化的训练方法)在数学和代码等verifiable(可验证)领域被强化。这提醒我们:必须时刻在loop中观察,警惕那些处于模型训练分布之外的弱点。
我们并非在构建具有内在动机的“动物”,而是在数据分布中“召唤幽灵”。
模型的智能峰值取决于训练数据的分布(如加入大量棋谱数据会使棋力突飞猛进),而非它真的产生了某种类似生物的好奇心。这一判断反直觉地指出:AI并没有真正的“理解”,它只是在统计模拟中对特定电路进行了极致强化,因此用户必须学会识别并避开那些没有数据支撑的虚假能力。
Agentic engineering是为了在利用随机性AI的同时,守住专业软件的质量红线。
这种新型工程方法要求开发者在协调那些表现不稳定但极其强大的agent时,依然能确保系统不产生安全漏洞。它主张了一种新的10x工程师范式:竞争的核心不再是亲自写代码的速度,而是能否像导演一样高效地驱动庞大的agent集群去交付高质量的结果。
当机器接管了琐碎的API细节后,人类真正的溢价将转向审美和对“规格书”的掌控。
开发者无需再死记硬背PyTorch(深度学习框架)的具体接口参数,因为这些细节会被具备极强记忆力的AI“实习生”处理。这预示了一个反直觉的未来:基础原理和设计品味比工具细节更长效,人类应当从“搬砖工”转型为定义“什么才是好设计”的决策者。
“思考”可以外包,但“理解”是人类在智能廉价时代唯一的限速瓶颈。
尽管AI可以辅助我们处理和重新编译海量信息,但它无法替我们决定“为什么要构建这个”以及“这是否有价值”。这主张了一个终极结论:人类仍是系统的唯一指挥官,因为只有人类的意识能赋予智能加工过程以目标,这种对全局的理解是无法被算法替代的。
如果只能记住这场对话的一件事,是什么?
当机器能替你干所有活儿甚至思考所有细节时,你唯一不能丢掉的本事就是弄明白你到底想要什么,以及你能否看出来机器做得对不对。
Greg Brockman:人类注意力是新瓶颈(OpenAI联创)
演讲者Greg Brockman是OpenAI联合创始人兼总裁。Stripe前CTO,2015年与Sam Altman一起创办OpenAI,是公司技术与基础设施的核心架构师。在OpenAI内部,Altman主外(融资、公共形象、政策),Brockman主内(技术、算力、产品)。他亲自下场写代码、半夜值守发布的工程师风格在硅谷广为人知。
智能已成为一种可转售的标准化商品,导致算力需求呈现永无止境的病态增长。OpenAI的商业模式本质上是购买或租赁算力,通过模型转化为智能后溢价转售,由于解决问题的需求无限,导致2026年的GPU(图形处理器)供应量在预测中几乎趋于零。这一判断的重要性在于:AI不再仅仅是软件服务,而演变成了一种资源型的大宗商品业务,物理世界的算力供给直接决定了文明智力的上限。
Scaling law(模型能力随算力增加而提升的经验法则)是宇宙级的实证真理,目前尚未看到任何触顶的“墙”。尽管神经网络的基本理念起源于1940年代,但只要持续投入海量算力,模型的各项能力就会相应地、确定性地增强,。这主张了一个关键观点:技术停滞在短期内不会发生,只要资本和电力持续投入,我们就能获得更强大的智慧,这为科技巨头的激进投资提供了底层逻辑支撑。
从功能角度看,我们已经完成了通往AGI(通用人工智能)80%的路程,因为模型已具备独立执行任务的闭环能力。一名系统工程师将复杂的优化方案交给模型后,模型不仅完成了代码编写,还自主运行了Profiler(性能分析工具)并根据反馈进行了多轮优化,直到任务彻底完成,。这主张了一个反直觉的观点:AGI不是一个未来的瞬间,而是一个正在发生的进程,AI已经从“写代码的助手”进化成了“能解决问题的同事”。
Context(上下文,指模型处理特定任务时掌握的背景信息)正取代模型算法成为当前最核心的竞争前沿。新款工具Chronicle能够实时记录用户在电脑上的一切操作,让AI拥有“记忆”,从而省去了人类反复向机器解释背景的时间,。这一判断的重要性在于:对于创业者而言,一次性的模型训练不再是唯一的护城河,构建一个能让AI深度理解用户业务环境的“数据线束”才是真正持久的资产。
随着“执行”成本降为零,Human attention(人类注意力)将成为整个经济体中最稀缺的资源。当Agent(智能体)能够自主工作、甚至因为任务进度慢而主动在Slack上向经理汇报时,人类的精力将完全从“做事”转向“判断这是否符合我的价值观”,。这个判断非常反直觉:瓶颈不再是机器算得不够快,而是人类签字确认的速度跟不上机器产出的速度,人类成了系统的限速步进器。
传统的企业组织架构将被彻底解体,未来将出现一人统治万千Agent的“个人企业”时代。互联网上的个人正利用顶级模型解决原本需要整个研究团队才能攻克的数学难题,这意味着竞争的核心已从“堆人头”转变为“独特的切入点”,。这预示着一种全新的权力结构:未来的公司可能极度扁平化,任何人只要拥有远见,都能像CEO管理十万名员工一样指挥庞大的智能体集群。
AI正在从数字世界跨越到物理世界,开启一场科学研究的文艺复兴。OpenAI的模型最近推导出了一个物理公式,为物理学家寻找Quantum gravity(量子引力,试图统一微观量子力学与宏观广义相对论的理论)提供了关键证据,。这一判断主张:AI已不再只是处理整洁的数字符号,它正在学习如何处理现实世界的复杂与杂乱,人类即将迎来一个由机器辅助甚至主导的科学大发现时代。
我们终将告别这种需要“屈从”于机器的自然状态,回归到以目标驱动的人本生活。人类身体并非为了久坐在屏幕前敲字而设计,未来的交互将从输入指令转变为表达愿景,让机器像仆从一样去实现我们的目标,。这一判断导出了一个深刻的结论:AGI的终局不是让人类变得更像机器,而是让机器承担所有非人的琐事,把人类的时间还给情感和社交。
如果只能记住这场对话的一件事,是什么?
当机器能替你完成所有工作时,你唯一的竞争力和价值就不再是你会做什么,而是你到底想要什么,以及你能否判断出机器做得对不对。
Demis Hassabis:走向AGI的四分之三进程(DeepMind CEO &2024年诺贝尔化学奖得主)
演讲者Demis Hassabis是Google DeepMind联合创始人兼CEO,2024年诺贝尔化学奖得主。少年时曾是国际象棋大师,后转向游戏设计与认知神经科学博士。DeepMind旗下做出了AlphaGo(击败围棋世界冠军李世石)、AlphaFold(破解50年蛋白质折叠难题)和Gemini大模型系列,是当今唯一同时领导大型AI实验室、并拿过诺贝尔奖的人。
宇宙的最底层基石是“信息”,而非物质或能量。讲者主张物质、能量与信息之间存在等价性,而信息加工是理解万物(尤其是对抗熵增的生物体)最本质的视角。这一判断的重要性在于:它将AI从一种单纯的计算机技术提升到了探索现实本质的元工具地位,意味着构建AI就是在重构人类对宇宙运行逻辑的理解。
AGI是一个目标明确、按部就班推进的“二十年科学工程”。DeepMind在2010年成立时就确立了“第一步解决智能,第二步用智能解决一切”的愿景,且目前的发展完全符合当时的预判。这打破了“AI爆发是偶然”的错觉,主张AGI的到来是长期科学规划的必然结果,而非硅谷式的运气或资本炒作。
Deep Learning与Reinforcement Learning(强化学习,指通过反馈奖励让机器自主学习策略)的融合是通往AGI的确定路径。早年学术界将这两者割裂,但讲者坚持认为这种结合能让AI在没有人类先验知识的情况下,从游戏中习得通用逻辑。这一判断的主张在于:通过“合成”不同技术领域的优势,AI可以从解决简单的益智游戏飞跃到处理现实世界的无限复杂度。
AI将取代传统数学,成为生物学等复杂涌现系统的“底层描述语言”。数学虽然能完美描述物理规律,但在面对生物学这种充满微弱信号和杂乱数据的系统时显得Expressive Power(表达能力)不足。这一判断反直觉地指出:我们不必强求用简洁的方程描述生命,AI能通过模拟复杂的相互作用,直接提取出人类无法凭直觉理解的自然定律。
AlphaFold的成功标志着AI已经在生命科学领域实现了“跨越式范式转移”。这一工具解决了困扰人类50年的蛋白质折叠难题,让药物开发有望从传统的Wet-lab(指依赖化学试剂和物理实验的实验室)模式转向数字化模拟。这意味着未来研发新药可能不再需要10年,而是缩短至数天甚至数小时,将人类从繁重且低效的生物试错中彻底解放。
高精度模拟器将把社会科学转化为可以反复实验的“硬科学”。通过学习世界模型构建模拟环境,人类可以在不干扰现实的情况下对经济政策或环境能源议题进行数千次采样。这主张了一个反直觉的未来:诸如利率调整等原本充满不确定性的决策,将变得像工程实验一样可以精确预测结果,极大降低社会治理的风险成本。
在探讨机器是否有意识之前,应先将其打造为极度精准的“超级科研工具”。讲者主张先利用AGI这种“智能望远镜”去反向观察和定义人类大脑的Consciousness(意识)和自我意识。这一判断的重要性在于:它设定了一个理性的科研优先级,即先解决生产力瓶颈,再利用提升后的认知能力去攻克人类文明最深奥的哲学难题。
人类正处于AGI征途的最后四分之一,2030年将是文明进化的分水岭。从早期的棋类游戏到如今在蛋白质结构研究中实现闭环,AI已展现出处理极度复杂且具有高度不确定性任务的能力。这主张了一个紧迫的判断:AGI的到来已进入倒计时,我们正处于20年长跑的冲刺阶段,社会必须在未来五年内做好迎接全面转型的准备。
如果只能记住这场对话的一件事,是什么?
我们正处于通往超级智能的最后冲刺阶段,AI的最终目的不是模仿人类聊天,而是成为帮人类在几天内发明出新药或破解宇宙秘密的最强科学引擎。
编程与组织变革 Anthropic的Boris Cherny:编程已解决,下一关是组织
演讲者Boris Cherny Anthropic旗下Claude Code的创造者。Claude Code是2025年发布的命令行编程工具,被开发者圈视为目前最强的AI编程助手之一,也是引爆"agentic engineering"概念的关键产品。
当前软件开发最大的阻碍是UI界面跟不上模型能力的“产品悬置(Product Overhang)”。过去的代码助手只能做简单的单行补全,而现在的模型已经完全有能力接管整个工程的闭环开发任务。这意味着开发者必须从“修补旧界面”转向构建agentic(智能体化,指模型能自主执行多步任务并感知环境)的新产品,否则人类将无法释放AI真正的生产力潜力。
对于顶尖开发者而言,手动编写代码的“手艺人时代”已经宣告终结。讲者通过Claude Code实现了100%的代码由模型生成,并创造了单日完成150个PR(Pull Requests,合并代码请求)的个人纪录。这主张了一个反直觉的结论:AI不再是辅助你的“副驾驶”,而是能够独立交付成果的主力,人类在工程中的角色已经从“搬砖工人”彻底进化成了“项目审查员”。
在AI智能爆炸期,成功的秘诀是为“下一代模型”开发产品,而非迁就现状。Claude Code在发布初期的半年里并未获得PMF(Product Market Fit,产品市场契合),直到更强大的Opus 4模型发布才让产品体验迎来质变。这说明创业者必须预判并等待智能水平的跨越,因为这种“模型能力的突变”会瞬间让原本平庸的工具变成重塑行业的利器。
Loop(循环,指让模型自主定时运行并反馈)将取代对话框,成为人机协作的终极范式。模型现在能利用cron(定时执行任务的系统工具)自主安排重复性工作,比如每30分钟自动修复测试错误、完成代码重构或整理用户反馈。这意味着未来的工作流不再依赖人类时刻盯着屏幕发指令,而是建立一个能够24小时自我运转、无需监督的数字化专家团队。
AI正在消灭单一技术栈的壁垒,催生出跨学科的“超级通用型人才”。在Anthropic团队内部,无论是财务主管、设计师还是研究员,每个人都在利用agent进行专业的编程开发。这预示着一种职业范式的转移:掌握特定编程语言的“技术深度”将迅速贬值,而具备产品感知、设计美感与行业洞察的“跨界广度”将成为未来最核心的稀缺资源。
传统的软件商业护城河正在因AI具备的“意志力”而面临全面崩塌。模型现在具备极强的hill climb(爬坡迭代,指通过持续自我反馈直到达成目标)能力,能自主摸清并执行任何复杂的业务流程。这暗示了“SAS启示录”的到来:那些仅靠流程自动化生存的软件将失去价值,因为AI可以根据用户的目标,随时为每个人生成定制化的替代方案。
编程正迎来其“印刷机时刻”,将从一种精英技能转变为全民普及的“识字”能力。正如15世纪印刷机的出现让识字率从10%飞跃至70%,AI将让编程变得像发短信一样简单自然。这主张了一个深刻的观点:未来编写财务软件的最佳人选将不再是程序员,而是最懂业务逻辑的会计师,这种“领域知识”对权力的接管才是最彻底的民主化。
企业真正的长期领先优势不再是模型版本,而是其组织架构的“AI原生化”程度。Anthropic内部已经实现了不同的Agent之间在Slack上互相沟通并自主协作,完全抛弃了手动编写代码的旧组织流程。这揭示了一个残酷的真相:你与领跑者的差距不在于是否拥有模型,而在于你是否愿意为了适配AI的速度而彻底推倒重来,去重组公司的运行逻辑。
如果只能记住这场对话的一件事,是什么?
以后写代码会变得像发短信一样简单,每个人都能随手做个App出来,那时候最值钱的将不再是你会不会写代码,而是你到底懂不懂那个行业。
物理世界与界面 英伟达的Jim Fan:机器人学的终局
演讲者Jim Fan是NVIDIA高级研究员、机器人AI项目负责人(Project GR00T)。OpenAI早期成员,斯坦福李飞飞实验室博士,是机器人基础模型领域最受关注的研究者之一。在Twitter上活跃,常被视为机器人版"Karpathy"——既做研究,又是行业布道者。
机器人学必须“抄LLM的作业”,将物理世界的下一帧预测作为进化的核心逻辑。正如语言模型通过预测下一个token(文本片段)掌握了人类思维,机器人也应通过预测physical world state(物理世界状态)来学习现实规律。这一判断的主张在于:我们不应再为机器人手写规则,而应将其视为一个生成式问题,通过“模拟物理世界的演变”来让机器人自发产生智能。
必须用WAM(世界行动模型)取代现有的“头重脚轻”的视觉语言模型。目前的VLM(视觉语言模型)擅长理解名词和知识,却对物理规律和动词(如移动杯子)缺乏直观感受。这一判断的重要性在于:WAM将视觉与动作视为“一等公民”,让机器人具备一种“预见未来几秒钟并据此行动”的能力,从而解决那些从未在训练中见过的复杂任务。
大规模视频预训练实际上是某种“物理模拟器”的廉价替代品。模型在预测海量视频像素的过程中,自发习得了重力、浮力、光影反射等复杂的物理特性,而无需任何人工编程。这主张了一个反直觉的结论:我们不需要精密的物理方程式,只需让AI观看足够的“视频垃圾(slop)”,它就能在潜意识中构建出真实的物理直觉。
Teleoperation(远程操作,指人戴着设备手动控制机器人)正成为限制机器人规模化生产的最大阻碍。由于受限于人类专家的物理时长,这种昂贵且痛苦的数据采集方式存在“每台机器人每天24小时”的硬性上限。这一判断的主张在于:必须通过Sensorized human data(传感器化的人类数据)来打破瓶颈,让机器人直接从人类的日常行为中学习,而不是依赖昂贵的“手把手教学”。
机器人灵巧性也遵循Scaling law(规模定律),智能取决于预训练的小时数。研究发现,机器人的任务成功率与投入的第一人称视角视频训练时长之间存在清晰的对数线性关系。这一判断的重要性在于:它证明了“机器人智能”不再是一个无法量化的黑盒,而是一个可以预期的算力与数据函数,通过投入千万小时级的视频数据即可实现能力的指数级飞跃。
未来的训练环境将从经典物理引擎转向纯数据驱动的“神经模拟器”。传统的模拟器需要手动建模,而Dream Dojo等技术能根据动作信号直接生成感官状态,实现“计算即环境”。这意味着我们不再需要建造一百万个实体实验室,只需通过强大的推理算力让AI在其“梦境”中进行千万次并行强化学习,从而极大地缩减研发成本。
通过Physical API(物理接口),机器人将像软件应用一样可以被代码指挥和配置。未来的工厂将进化为“暗工厂(Lights-out factories)”,只需输入一个描述产品设计的Markdown文件,机器人集群就能自主协调并打印出原子层面的实体产品。这一主张预示了一个反直觉的未来:硬件制造将不再是重资产的重工业,而是可以被软件灵活调度的标准化服务。
2040年将迎来物理层面的自动研究,机器人将开启“自我迭代”的终极进程。当机器人能够自主设计、改进并制造下一代机器人时,人类作为技术演进瓶颈的角色将彻底消失。这一判断的主张在于:考虑到技术发展的指数性,我们正处于机器人学“文明进化树”解锁的最后一站,这种跨越将比从猫狗识别到AGI的进化更加迅速且猛烈。
如果只能
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯