Anthropic推出Managed Agents:重新定义Harness Engineering的未来

笔逼10 小时前

Anthropic今日发布了一款全新产品,其定位直指行业痛点:你无需再自行构建Harness,而是由Anthropic代劳。基于对模型局限性的深刻理解,Anthropic将根据模型特性设计Harness,并以打包形式提供给用户。这个包就是——Managed Agents。

uepjy1l1vN1nbh7K0dgXinwHyGa0mjPcFeGfVXx4.jpeg

这一幕让人联想到十年前AWS推动云计算市场的历程。当时,AWS首先教育市场“上云”的必要性,待企业普遍接受后,又提出:“你自己搭建不好,交给我们。”最终,大多数企业选择了托管服务,因为基础设施从来不是企业的核心竞争力。而今天,Anthropic正在重复同样的路径。

Anthropic通过三篇博客逐步教会行业什么是Harness、为什么Harness比模型更重要,以及如何设计优秀的Harness:

  • Anthropic说:不要等待下一代模型,现在就开始做Harness!
  • Anthropic说:网传的Harness思路已经过时,做好这三件事就够了!
  • Anthropic产品负责人:PRD已死,原型万岁!

以context anxiety为例,Anthropic展示了新产品Sonnet 4.5在接近上下文窗口极限时出现“焦虑”,导致提前结束任务并显著降低质量。为此,他们早期在Harness中加入了sprint + context reset机制来应对。然而,随着Opus 4.5的发布,“焦虑”问题被解决,sprint机制也随之被移除。之前的补丁反而成为累赘。

由此得出结论:Harness的可能性空间并未缩小,只是在不断变化。每一代新模型的发布,都需要重新审视哪些约束仍然有效。但从另一个角度看,如果你自己搭建了那套sprint + context reset,实际上浪费了工程时间。如果由Anthropic管理Harness,在升级模型的同时也会更新Harness,你无需做任何改动。

这就是Managed Agents的主要卖点:Harness的保鲜期太短,以至于自行维护变得不划算。

技术实现方式

此前的Claude Agent SDK将推理循环、代码执行、会话记录等全部塞入一个容器中。一旦容器崩溃,会话数据便会丢失。而现在,Anthropic将其拆分为三个独立模块:

  • 大脑:Claude及其Harness,负责思考与决策。
  • :沙盒和工具,负责执行。
  • 记忆:独立的会话日志,记录所有内容。
tytvq3VFVKi71AaPfYqOv7TN2uxt9AWbFKqPixk3.jpeg

这三个模块互不依赖。容器挂了?新容器可以重建。Harness出问题了?新的Harness拿到会话日志后可从断点继续运行。没有任何组件是不可替换的。

最核心的一点在于:Harness变成了一个可热插拔的模块,而掌握热插拔权的是Anthropic,而非用户。

马东锡对此有精辟总结:

ZfUYuaHCSsMBu8TTQRcW0eCVvcLX6YayigI7YSJk.jpeg

Harness并不关心沙盒究竟是一个容器、一部手机还是一个宝可梦模拟器,只要符合“输入字符串,输出字符串”的接口即可。

9nE3IcIawd1ESi20GhJ2OeAfhZxHcGdXJEV6oKP7.jpeg

写在最后

过去,业界普遍认为Harness意味着真正稀缺的能力不在模型内部,而在模型外部。然而,今天Anthropic正尝试将“模型外部”这一层重新装回“模型厂商内部”。Harness Engineering不会消亡,但“人类构建Harness”的窗口期可能比所有人预期的都要短。

你的Harness要么被模型的进步淘汰,要么被平台服务取代,要么你必须跑得比这两者都快。不过,从现实情况来看,通用Harness能够覆盖大部分场景,但无法满足所有需求。例如法律、金融、医疗等领域,每个领域的Agent都有自己的评估标准和安全边界。通用平台达到80分并不困难,但最后的20分才是真正的竞争力。

更何况,开源社区还将探索更多有趣的路线,比如昨天分享的Hermes项目:让Agent自己编写Skill,使用Skill,甚至改进Skill——不把Harness交给平台,而是让Agent自己书写自己的Harness。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场