Anthropic推出Managed Agents：重新定义Harness Engineering的未来

笔逼10 小时前

Anthropic今日发布了一款全新产品，其定位直指行业痛点：你无需再自行构建Harness，而是由Anthropic代劳。基于对模型局限性的深刻理解，Anthropic将根据模型特性设计Harness，并以打包形式提供给用户。这个包就是——Managed Agents。

这一幕让人联想到十年前AWS推动云计算市场的历程。当时，AWS首先教育市场“上云”的必要性，待企业普遍接受后，又提出：“你自己搭建不好，交给我们。”最终，大多数企业选择了托管服务，因为基础设施从来不是企业的核心竞争力。而今天，Anthropic正在重复同样的路径。

Anthropic通过三篇博客逐步教会行业什么是Harness、为什么Harness比模型更重要，以及如何设计优秀的Harness：

Anthropic说：不要等待下一代模型，现在就开始做Harness！
Anthropic说：网传的Harness思路已经过时，做好这三件事就够了！
Anthropic产品负责人：PRD已死，原型万岁！

以context anxiety为例，Anthropic展示了新产品Sonnet 4.5在接近上下文窗口极限时出现“焦虑”，导致提前结束任务并显著降低质量。为此，他们早期在Harness中加入了sprint + context reset机制来应对。然而，随着Opus 4.5的发布，“焦虑”问题被解决，sprint机制也随之被移除。之前的补丁反而成为累赘。

由此得出结论：Harness的可能性空间并未缩小，只是在不断变化。每一代新模型的发布，都需要重新审视哪些约束仍然有效。但从另一个角度看，如果你自己搭建了那套sprint + context reset，实际上浪费了工程时间。如果由Anthropic管理Harness，在升级模型的同时也会更新Harness，你无需做任何改动。

这就是Managed Agents的主要卖点：Harness的保鲜期太短，以至于自行维护变得不划算。

技术实现方式

此前的Claude Agent SDK将推理循环、代码执行、会话记录等全部塞入一个容器中。一旦容器崩溃，会话数据便会丢失。而现在，Anthropic将其拆分为三个独立模块：

大脑：Claude及其Harness，负责思考与决策。
手：沙盒和工具，负责执行。
记忆：独立的会话日志，记录所有内容。

这三个模块互不依赖。容器挂了？新容器可以重建。Harness出问题了？新的Harness拿到会话日志后可从断点继续运行。没有任何组件是不可替换的。

最核心的一点在于：Harness变成了一个可热插拔的模块，而掌握热插拔权的是Anthropic，而非用户。

马东锡对此有精辟总结：

Harness并不关心沙盒究竟是一个容器、一部手机还是一个宝可梦模拟器，只要符合“输入字符串，输出字符串”的接口即可。

写在最后

过去，业界普遍认为Harness意味着真正稀缺的能力不在模型内部，而在模型外部。然而，今天Anthropic正尝试将“模型外部”这一层重新装回“模型厂商内部”。Harness Engineering不会消亡，但“人类构建Harness”的窗口期可能比所有人预期的都要短。

你的Harness要么被模型的进步淘汰，要么被平台服务取代，要么你必须跑得比这两者都快。不过，从现实情况来看，通用Harness能够覆盖大部分场景，但无法满足所有需求。例如法律、金融、医疗等领域，每个领域的Agent都有自己的评估标准和安全边界。通用平台达到80分并不困难，但最后的20分才是真正的竞争力。

更何况，开源社区还将探索更多有趣的路线，比如昨天分享的Hermes项目：让Agent自己编写Skill，使用Skill，甚至改进Skill——不把Harness交给平台，而是让Agent自己书写自己的Harness。

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场