世界模型迈向新阶段:HWM引领长时程控制与规划革新
导语 近一年来,世界模型的研究焦点从表征学习和未来预测逐步转向更复杂的长时程控制与规划。模型不仅需要理解世界,还需要在内部推演未来状态,并将预测能力转化为可执行的系统能力。这一转变催生了一批代表性成果。
Meta 在 2025 年发布的 V-JEPA 2(Video Joint Embedding Predictive Architecture 2)通过超过 100 万小时的互联网视频进行预训练,并结合少量机器人交互数据,展示了世界模型在理解、预测和零样本机器人规划上的潜力。然而,预测能力强并不等同于具备处理多阶段任务的能力。面对长时程控制,系统通常会遇到两个主要挑战:一是预测误差在连续多步推演中持续积累,导致路径偏离目标;二是动作搜索空间随规划视距增长而迅速扩大,显著增加规划成本。
HWM(Hierarchical World Model)并未改变世界模型的基础学习路线,而是在已有带动作条件的世界模型之上引入分层规划结构,让系统先组织阶段路径,再处理局部动作。这种设计有效缓解了长时程控制中的难题。
从技术角度看,V-JEPA 2(https://ai.meta.com/research/vjepa/)更注重世界表征与基础预测,HWM 则侧重长时程规划,而 WAV(World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry,https://arxiv.org/abs/2604.01985)则关注模型对自身预测失真的识别与修正。这三条研究路线正在逐步融合,标志着世界模型研究的重点从单纯预测未来转向如何将预测能力转化为可执行、可修正、可验证的系统能力。
一、长时程控制为何仍是世界模型的瓶颈
以机械臂操作为例,完成“抓起杯子并放入抽屉”这样的任务并非单一动作,而是一系列连续步骤。系统需要靠近物体、调整姿态、完成抓取、移动到目标位置,并处理放置过程。链条越长,两个问题就越明显:一是预测误差在连续推演中不断累积;二是动作搜索空间迅速扩大。

系统缺乏的往往不是局部预测能力,而是将远目标分解为阶段路径的能力。许多看似偏离目标的动作实际上是完成任务所需的中间步骤。例如,抓取前抬高手臂或开抽屉前调整角度。
在展示型任务中,世界模型已能给出连贯预测,但在真实控制场景中性能下滑,问题逐渐浮现。这不仅是表征本身的问题,也反映了规划层的不成熟。
二、HWM 如何重构规划过程
HWM 将原本单层完成的规划过程拆分为两层:上层负责较长时间尺度上的阶段方向,下层负责较短时间尺度上的局部执行。模型不再以单一节奏规划,而是同时按两个不同的时间节奏展开。
单层方法在处理长任务时,通常需要在底层动作空间中直接搜索整条动作链,任务越长,搜索成本越高,预测误差也越容易扩散。HWM 的分层设计使高层专注于较长时间尺度上的路线选择,低层则专注于当前阶段动作的完成,从而将长任务拆解为多段较短任务,显著降低规划复杂度。
关键设计在于,高层动作并非简单记录状态差值,而是通过编码器将一段低层动作压缩为更高层的动作表示。对于长任务而言,关键不仅在于起点与终点之间的差异,更在于中间步骤的组织方式。如果高层仅关注位移差,容易丢失路径信息。
HWM 展现了一种分层任务组织方式。面对多阶段工作,系统不再一次性展开所有动作,而是先形成粗略的阶段路径,再逐段执行与修正。这种层级关系进入世界模型后,预测能力开始更稳定地转化为规划能力。
三、从 0% 到 70%,实验结果说明了什么
在论文设置的真实世界抓取并放置任务中,系统仅获得最终目标条件,未提供人工拆解的中间目标。结果显示,HWM 的成功率达到 70%,而单层 world model 的成功率仅为 0%。原本几乎无法完成的长任务,在引入分层规划后,变成了大概率可实现的结果。

论文还测试了推动物体操作和迷宫导航等仿真任务。结果显示,分层规划不仅提高了成功率,还降低了规划阶段的计算成本。在某些环境中,规划阶段的计算成本最多可减少至原来的四分之一左右,同时保持更高或相当的成功率。
四、从 V-JEPA 到 HWM 再到 WAV
V-JEPA 2 代表的是世界表征这条路线。它通过大规模观察获得世界表征,并将其迁移到机器人规划中。HWM 则在此基础上进一步发展,解决了多阶段控制中误差累积和搜索空间扩张的问题。
WAV 则将焦点放在验证能力上。世界模型要进入策略优化和部署场景,不仅需要预测能力,还需能够发现自身在哪些区域容易失真,并据此进行校正。

V-JEPA 偏向世界表征,HWM 偏向任务规划,WAV 偏向结果验证。三者虽关注点不同,但大方向一致:世界模型的下一阶段不再是单纯的内部预测,而是将预测、规划、验证整合为一套系统能力。
五、从内部预测走向可执行系统
过去,许多世界模型的工作更注重提升未来状态预测的连续性或内部世界表征的稳定性。然而,当前研究重点已发生变化,系统不仅要形成对环境的判断,还要将判断转化为动作,并在结果出来后继续修正下一步。
这类变化也将影响 AI agent 的发展。许多 agent 系统已能完成短链路任务,如调用工具、读取文件或执行若干步骤指令,但一旦任务变成长链路、多阶段且需要中途重规划,性能就会下滑。这与机器人控制中的难点并无本质区别,都是高层路径组织能力不足导致局部执行与整体目标脱节。
HWM 提供的分层思路——高层负责路径与阶段目标,低层负责局部动作与反馈处理,再叠加结果验证——将在更多系统中持续出现。世界模型的下一阶段,重点也不再只是预测未来,而是将预测、执行和修正组织成一条可以运行的路径。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯