李飞飞对话a16z:世界模型是AI的未来方向,应用潜力远超机器人
由著名AI专家、斯坦福大学教授李飞飞于2024年创办的初创公司World Labs,正在致力于开发具备“空间智能”的下一代AI系统。这家公司自成立以来,已成功完成两轮融资,累计筹集资金约2.3亿美元,主要投资者包括a16z、Radical Ventures、NEA、英伟达NVentures、AMD Ventures和Intel Capital等。仅用三个月时间,公司估值便突破10亿美元,成为AI领域的新晋独角兽。
近日,李飞飞与a16z两位合伙人Martin Casado及Eric Torenberg展开了一场深度对话,首次公开讲述了World Labs创立背后的理念构建、研究方向与宏大愿景。
李飞飞在对话中明确指出:“我不需要大语言模型来说服我,世界模型才是那个真正重要的方向。”她强调,无论是物理世界的三维空间,还是数字宇宙中的虚拟场景,空间智能都是智能不可或缺的组成部分。当前技术的发展使得我们终于有能力生成与重建这些宇宙。
▍比语言更古老的智能:空间感知与三维重建
李飞飞提到,相较于语言,空间感知是人类进化过程中更为古老且本能的能力。她分享了一段亲身经历:数年前因角膜受伤短暂丧失立体视觉后,连熟悉的街道都难以独自驾驶,无法准确判断与旁车的距离。
这次实验性体验让她深刻认识到,三维感知系统对人类行动的基础作用不可替代。而对于AI而言,如果缺乏三维世界模型,就无法真正理解、操作或重建现实世界。
Martin Casado补充道,这种三维智能的缺失正是机器人和具身智能系统迟迟未能落地的核心原因。他举例说明:如果一个人被蒙上双眼,仅凭语言描述来完成任务几乎不可能;而一旦睁开眼睛,大脑就能自动重建空间模型并完成行动。这种能力是当前主流语言模型完全不具备的。
▍从NeRF到世界模型的技术临界点
谈及为何选择此时创办World Labs,李飞飞认为,这是长期学术研究与产业基础积累的结果。
她回顾道,早在四年前,一项名为NeRF(神经辐射场)的研究突破为三维视觉建模打开了全新通路。而NeRF的提出者之一Ben Mildenhall正是World Labs的联合创始人。
另一位创始人Christopher则在高效三维表示方面进行了开创性研究,推动了volumetric 3D建模在工业界的回归。
再加上早期将GAN技术应用于图像风格迁移的Justin Johnson,这些研究成果如今得以整合在同一团队中,围绕一个“北极星级”目标:构建AI的世界模型能力。
Martin Casado总结说,这一目标的核心在于两个系统的深度融合:一是AI模型、数据与架构本身,二是图形渲染与空间重建的工程体系。这样的跨领域协作本身就是一次重要的技术产业组织创新。
▍语言模型不是终点,而是序章
李飞飞强调,她对世界模型的信仰并非源于对LLM(大语言模型)的失望,而是基于对智能本质的更深层次理解。
她指出,语言是一种“有损压缩”的认知方式,它通过抽象丢失了丰富的物理与感知信息。真正的现实世界没有单词、语法和文本,只有物理、运动与三维结构。
这种认识也改变了她对AI公司应有形态的认知。从斯坦福教授转型为创业者,是因为她意识到,要实现空间智能的建模,仅靠学术研究远远不够——需要工业化算力投入、系统级架构调度以及顶级跨界人才的协作。
这一切只有在一家组织化程度极高、全栈工程协同能力突出的公司中才能真正落地。
▍空间智能应用远超机器人
对于大多数人而言,“世界模型”仍是抽象的科研术语。但李飞飞与Martin共同指出,其应用远不止于自动驾驶与机器人。
创造力本质上是视觉性的。工业设计、电影制作、建筑构图乃至游戏开发,全都依赖于三维构建与操控。如果AI拥有世界模型能力,不仅能“看懂”三维世界,还能“生成”并“操作”虚拟空间。
Martin描述道,只需一张桌子的照片,模型就能推断出背后的形态与材质,进而构建完整空间场景。在此基础上,用户甚至可以对空间进行测量、添加、删除或重新设计。这是一种比文字指令更直观、更自由的人机交互方式,也为设计、创作与模拟实验打开了全新维度。
李飞飞进一步提出,数字空间正带来前所未有的变革机会:“人类迄今为止只活在一个三维物理世界中,但数字世界将首次让我们进入‘多重宇宙’。”
她列举了一些例子:有的宇宙专为机器人而建,有的服务于人类创意,有的用于讲述、交流与体验旅行。这些曾只存在于想象中的空间,如今将真正被生成出来,并被机器理解、使用和改造。
▍基础模型下一战:三维全景建模
回到技术本身,李飞飞强调,World Labs的目标不仅是打造一个“会看”的AI,而是让AI理解世界的三维结构、动力学与组合逻辑。这不仅是一个更复杂的工程问题,也是一种全新的表示哲学。
她认为,像DNA的双螺旋结构、巴基球等科学发现,都是空间智能的结晶。纯靠语言,不可能推导出这类几何构造。这也正是为什么世界模型不仅能提升机器的理解能力,还可能为人类的科学与艺术打开新的创作路径。
Martin总结说,LLM带来的革命证明了一个事实:当我们找到正确的数据结构和模型表示方式,AI的能力提升会呈指数级爆发。现在,他们相信“世界模型”正站在类似的临界点上。
▍理解并构建世界的钥匙
“我们其实正在倒着走进化之路。”Martin提出这个观点时,整个对话也进入了哲学层面。
语言是人类大脑进化中最晚出现的模块之一,而空间感知系统自节肢动物以来就存在,至今已有五亿年历史。今天的AI如果只是“学会语言”,并不能真正称之为“理解世界”。只有构建出类人的空间模型,AI才算真正踏入“具身智能”的大门。
李飞飞以一贯坚定的语气总结道:“我一直在等这一天。不是因为我不信语言模型,而是因为我深知:真正的世界,不是文本构成的。”
而世界模型,就是让AI真正理解并构建这个世界的钥匙。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场