Harness的崛起：人工智能正在接管流程的核心权力

隔夜的粥6 小时前

早上，Palo Alto的一间咖啡馆里，Alan Walker低头刷到Anthropic发布的那篇关于Harness的文章，抬头只说了一句：

“很多人以为这是模型又进步了一点。错了，这是流程开始背叛人。”

这篇文章表面上讨论的是工程设计、planner、generator、evaluator，以及如何让Claude连续运行数小时完成更复杂的任务。

大多数人看到这里便停下了思考，觉得这不过是agent变得更复杂了，prompt更长了，工作流更细致了。

但Alan指出，真正值得关注的从来不是表层功能，而是权力正在向哪一层转移。

过去，一个复杂任务需要人来拆解需求、执行、检查、返工和兜底；而现在，Anthropic所做的并不是让模型更像聪明的员工，而是让整个系统接管原本属于人的组织权、监督权和验收权。

Harness不是外挂，它是机器开始长出“管理层”。

这才是它真正令人震撼的地方。

01 不是工具，是“管工具的那层”

许多人初看Harness时，第一反应是：“这不就是另一个agent框架吗？”

这个理解太浅了。

普通工具的本质是听命行事——你点一下，它动一下；你不命令，它不会主动行动。

但Harness已经超越了这一逻辑。它真正实现的是将隐藏在人类团队中的分工结构软件化：

谁来理解需求，谁来拆分阶段，谁来执行，谁来检查，谁有权发现问题并打回重做。

换句话说，Anthropic并非简单堆叠功能，而是将“如何组织工作”这件事本身写进了系统。

为什么这一步至关重要？因为过去最难复制的从来不是单点能力，而是组织能力。

会写代码的人很多，但能把十几个人、十几个步骤、十几轮返工高效组织起来并稳定交付的人很少。

而Harness触碰的，正是这一层最昂贵的东西。

工具提升效率，组织决定产出。

单个模型只是劳动力，而Harness已经开始触及公司结构。

当AI不仅会干活，还会分工、交接和追责时，它就不再是一个简单的“工具升级”了。

02 不是更聪明，是更不容易烂尾

模型最迷惑人的地方在于，它在短任务中总显得很聪明。

问它一个问题，回答得头头是道；让它写一段代码，也常常像模像样。于是很多人误以为：既然短任务能完成，长任务无非是多跑一会儿。

完全不是。

长任务的难点从来不在于某一步不会做，而在于连续几十步后还能不失真、不失控、不自我欺骗。

人类做项目时也是如此。最怕的不是不会，而是做到后面开始混乱：

需求记不清了，目标开始漂移，前后逻辑不一致，最后擅长的不是把事做完，而是写一份看似完成的总结。

Anthropic文章中提到的核心问题，本质上就是这个：

模型在长期任务中会逐渐“掉魂”。上下文越长，状态越乱，越容易进入一种“差不多得了”的心理幻觉。

Harness的价值，不是让它更灵，而是让它不那么散、不那么虚、不那么容易糊弄过去。

拆阶段、做交接、定contract、独立评估、失败回滚——这些看似流程细节的操作，实际上都在解决同一个底层问题：

智能可以不稳定，但交付不能靠运气。

要真正看懂Harness，必须明白一件事：

未来真正值钱的，不是谁偶尔能打出一个惊艳demo，而是谁能持续推动系统几个小时、几天甚至更长时间的工作，并且不烂尾。

会写不稀奇，写到最后还没崩才稀奇。

灵光一现不值钱，稳定交付才值钱。

Alan说，Anthropic这篇中最冷酷的一刀，不是planner，也不是generator，而是evaluator。

为什么？

因为大模型有一个与人类极其相似的毛病：自己做的东西，总觉得还行。

只要没有外部约束，它很容易给出一种“总体不错”“基本完成”“核心功能已具备”的自我评价。

问题是，这种评价很多时候不是谎言，而是一种系统性的自我宽容。

人类公司里，为什么很多项目最后会翻车？

因为干活的人往往最会替自己找理由。

做的人说已经差不多了，验收的人懒得深看，于是一个“差不多”的东西就被一路放行，最后到了用户手里爆炸。

Anthropic很狠的一点，是直接把这件事拆开：

干活的是一个角色，挑错的是另一个角色。

前者负责推进，后者负责怀疑。

背后的逻辑非常深刻：

一旦生产权和评价权分开，系统就开始真正形成闭环。

更可怕的是，Anthropic并没有让evaluator仅仅说几句“我觉得这里不好”，而是尽量将“挑错”结构化：

功能要测，页面要点，接口要查，数据库状态要看，设计质量也被拆成可评分的维度。

这意味着什么？

意味着许多过去被人类神秘化的判断权，正在被一点点拆解为流程、标准和阈值。

最先被自动化的，往往不是体力，而是挑刺。

一旦“这东西到底行不行”被流程化，很多人的经验护城河就会开始漏水。

过去很多岗位之所以值钱，不是因为会生产，而是因为有权说“这东西算不算过”。

现在，这个权力开始从人手里松动了。

03 最狠的一刀，是不准它自己夸自己

Anthropic这篇中最冷酷的一刀，不是planner，也不是generator，而是evaluator。

为什么？

因为大模型有一个与人类极其相似的毛病：自己做的东西，总觉得还行。

只要没有外部约束，它很容易给出一种“总体不错”“基本完成”“核心功能已具备”的自我评价。

问题是，这种评价很多时候不是谎言，而是一种系统性的自我宽容。

人类公司里，为什么很多项目最后会翻车？

因为干活的人往往最会替自己找理由。

做的人说已经差不多了，验收的人懒得深看，于是一个“差不多”的东西就被一路放行，最后到了用户手里爆炸。

Anthropic很狠的一点，是直接把这件事拆开：

干活的是一个角色，挑错的是另一个角色。

前者负责推进，后者负责怀疑。

背后的逻辑非常深刻：

一旦生产权和评价权分开，系统就开始真正形成闭环。

更可怕的是，Anthropic并没有让evaluator仅仅说几句“我觉得这里不好”，而是尽量将“挑错”结构化：

功能要测，页面要点，接口要查，数据库状态要看，设计质量也被拆成可评分的维度。

这意味着什么？

意味着许多过去被人类神秘化的判断权，正在被一点点拆解为流程、标准和阈值。

最先被自动化的，往往不是体力，而是挑刺。

一旦“这东西到底行不行”被流程化，很多人的经验护城河就会开始漏水。

过去很多岗位之所以值钱，不是因为会生产，而是因为有权说“这东西算不算过”。

现在，这个权力开始从人手里松动了。

04 先被吃掉的，不是程序员，是“差不多就行”

一看到这种文章，很多人条件反射地问：“程序员是不是要完了？”

Alan说，这种问法太表面，也太懒。

Harness第一波吃掉的，不是某个职业名称。

它先吃掉的，是一种长期存在且在几乎所有知识工作中都很常见的生存方式：

需求不清楚，先做着；中途做歪了，后面再补；效果一般，但能跑；文档没写清楚，不过团队里大家都懂；上线先上，问题回来再修。

说白了，这是一整套基于模糊空间和人类弹性的工作方式。

很多项目之所以还能往前走，不是因为流程真的清晰，而是因为中间总有人靠经验、靠补位、靠临时判断把坑填上了。

Harness正在干的事，恰恰相反。

它在压缩模糊空间，压缩借口空间，压缩“我以为”“差不多”“应该可以”的生存空间。

先定义这一轮什么叫done，再允许开工；做不满足，就打回；验不通过，就继续；不要感觉，要证据。

这套逻辑一旦往前推进，最危险的从来不是最会写代码的人，而是最依赖灰色地带生存的人。

Harness吃掉的不是程序员，先吃掉的是模糊。

不是每个人都会被替代，但每个靠含糊活着的位置都会先贬值。

以前很多岗位靠信息差活着，以后很多岗位会死在标准差上。

05 它为什么偏偏现在火了

很多人会问，这种工作流式的东西以前也有人做，为什么偏偏这次大家开始认真了？

因为以前底模不够强。

说得再直白一点：

以前很多这类框架，看起来很美，跑起来很重，结果却不够硬。

你搭了一堆流程、堆了一堆角色、写了一堆规则，最后只是把一个不太可靠的模型包装成一个更复杂的不太可靠系统。

所以过去很多人对agent、workflow、scaffold这套东西失去耐心，也很正常。

不是方向错了，而是底盘没到那个阶段。

现在不一样了。

模型一旦跨过某个阈值，很多原来像装饰的流程，开始第一次释放真实价值。

因为当底模足够强时，流程不再是在扶一个废柴，而是在放大一个本来就已经能连续工作的系统。

这就是Harness现在突然显得“有点真了”的原因。

不是它的理念今天才出现，而是模型终于强到能吃到流程红利了。

Alan那句说得很准：

模型能力是发动机，Harness是变速箱。

以前没有好发动机，再好的变速箱也是摆设。

但当发动机已经够猛，变速箱才开始决定谁能上高速，谁还在原地轰油门。

所以这波不是单纯的技术流行，而是行业在发出一个更深的信号：

未来的竞争，不只是谁模型更强，而是谁更先把模型编进生产系统。

06 “人默认站在中间”

最后，Alan放下杯子，说了那天最冷的一句话：

“以前是人盯着软件干活，以后是软件盯着软件干活。”

这句话为什么扎心？

因为它点破了Harness真正改写的不是某一个岗位，而是一个更底层、过去几乎没人怀疑过的前提：

在数字劳动里，默认应该有一个人站在中间。

他来拆任务，他来盯进度，他来判断质量，他来协调返工，他来兜最后的底。

这个“默认站在中间的人”，可能叫程序员，可能叫PM，可能叫TL，可能叫设计负责人，可能叫QA，也可能叫项目经理。

名字不重要。

重要的是，过去整个数字生产系统默认离不开这样一个“人类中枢”。

Harness真正动到的，就是这个中枢位置。

它不是说今天立刻把人赶走，而是在一点点证明：

原来有些拆解可以系统来做，原来有些监督可以系统来做，原来有些验收可以系统来做，原来有些回滚和重试也可以不用人先发现再处理。

当这件事被证明得越来越多，人的位置就不会一下消失，但会开始下沉。

从默认中心，变成例外介入；从全程盯盘，变成只处理边角问题；从流程主人，变成流程观察者。

这才是Harness真正吃掉的东西。

不是程序员，不是产品经理，不是QA，而是这几个角色背后那个更深的假设：

人类默认是流程的中心。

而一旦这个前提开始松动，后面的故事就都不一样了。

工具时代，比的是谁更会用工具。

Harness时代，比的是谁更早接受：

自己不再天然处在系统正中央。

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场