Harness的崛起:人工智能正在接管流程的核心权力
早上,Palo Alto的一间咖啡馆里,Alan Walker低头刷到Anthropic发布的那篇关于Harness的文章,抬头只说了一句:
“很多人以为这是模型又进步了一点。错了,这是流程开始背叛人。”
这篇文章表面上讨论的是工程设计、planner、generator、evaluator,以及如何让Claude连续运行数小时完成更复杂的任务。
大多数人看到这里便停下了思考,觉得这不过是agent变得更复杂了,prompt更长了,工作流更细致了。
但Alan指出,真正值得关注的从来不是表层功能,而是权力正在向哪一层转移。
过去,一个复杂任务需要人来拆解需求、执行、检查、返工和兜底;而现在,Anthropic所做的并不是让模型更像聪明的员工,而是让整个系统接管原本属于人的组织权、监督权和验收权。
Harness不是外挂,它是机器开始长出“管理层”。
这才是它真正令人震撼的地方。
01 不是工具,是“管工具的那层”
许多人初看Harness时,第一反应是:“这不就是另一个agent框架吗?”
这个理解太浅了。
普通工具的本质是听命行事——你点一下,它动一下;你不命令,它不会主动行动。
但Harness已经超越了这一逻辑。它真正实现的是将隐藏在人类团队中的分工结构软件化:
谁来理解需求,谁来拆分阶段,谁来执行,谁来检查,谁有权发现问题并打回重做。
换句话说,Anthropic并非简单堆叠功能,而是将“如何组织工作”这件事本身写进了系统。
为什么这一步至关重要?因为过去最难复制的从来不是单点能力,而是组织能力。
会写代码的人很多,但能把十几个人、十几个步骤、十几轮返工高效组织起来并稳定交付的人很少。
而Harness触碰的,正是这一层最昂贵的东西。
工具提升效率,组织决定产出。
单个模型只是劳动力,而Harness已经开始触及公司结构。
当AI不仅会干活,还会分工、交接和追责时,它就不再是一个简单的“工具升级”了。
02 不是更聪明,是更不容易烂尾
模型最迷惑人的地方在于,它在短任务中总显得很聪明。
问它一个问题,回答得头头是道;让它写一段代码,也常常像模像样。于是很多人误以为:既然短任务能完成,长任务无非是多跑一会儿。
完全不是。
长任务的难点从来不在于某一步不会做,而在于连续几十步后还能不失真、不失控、不自我欺骗。
人类做项目时也是如此。最怕的不是不会,而是做到后面开始混乱:
需求记不清了,目标开始漂移,前后逻辑不一致,最后擅长的不是把事做完,而是写一份看似完成的总结。
Anthropic文章中提到的核心问题,本质上就是这个:
模型在长期任务中会逐渐“掉魂”。上下文越长,状态越乱,越容易进入一种“差不多得了”的心理幻觉。
Harness的价值,不是让它更灵,而是让它不那么散、不那么虚、不那么容易糊弄过去。
拆阶段、做交接、定contract、独立评估、失败回滚——这些看似流程细节的操作,实际上都在解决同一个底层问题:
智能可以不稳定,但交付不能靠运气。
要真正看懂Harness,必须明白一件事:
未来真正值钱的,不是谁偶尔能打出一个惊艳demo,而是谁能持续推动系统几个小时、几天甚至更长时间的工作,并且不烂尾。
会写不稀奇,写到最后还没崩才稀奇。
灵光一现不值钱,稳定交付才值钱。
Alan说,Anthropic这篇中最冷酷的一刀,不是planner,也不是generator,而是evaluator。
为什么?
因为大模型有一个与人类极其相似的毛病:自己做的东西,总觉得还行。
只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已具备”的自我评价。
问题是,这种评价很多时候不是谎言,而是一种系统性的自我宽容。
人类公司里,为什么很多项目最后会翻车?
因为干活的人往往最会替自己找理由。
做的人说已经差不多了,验收的人懒得深看,于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。
Anthropic很狠的一点,是直接把这件事拆开:
干活的是一个角色,挑错的是另一个角色。
前者负责推进,后者负责怀疑。
背后的逻辑非常深刻:
一旦生产权和评价权分开,系统就开始真正形成闭环。
更可怕的是,Anthropic并没有让evaluator仅仅说几句“我觉得这里不好”,而是尽量将“挑错”结构化:
功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。
这意味着什么?
意味着许多过去被人类神秘化的判断权,正在被一点点拆解为流程、标准和阈值。
最先被自动化的,往往不是体力,而是挑刺。
一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。
过去很多岗位之所以值钱,不是因为会生产,而是因为有权说“这东西算不算过”。
现在,这个权力开始从人手里松动了。
03 最狠的一刀,是不准它自己夸自己
Anthropic这篇中最冷酷的一刀,不是planner,也不是generator,而是evaluator。
为什么?
因为大模型有一个与人类极其相似的毛病:自己做的东西,总觉得还行。
只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已具备”的自我评价。
问题是,这种评价很多时候不是谎言,而是一种系统性的自我宽容。
人类公司里,为什么很多项目最后会翻车?
因为干活的人往往最会替自己找理由。
做的人说已经差不多了,验收的人懒得深看,于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。
Anthropic很狠的一点,是直接把这件事拆开:
干活的是一个角色,挑错的是另一个角色。
前者负责推进,后者负责怀疑。
背后的逻辑非常深刻:
一旦生产权和评价权分开,系统就开始真正形成闭环。
更可怕的是,Anthropic并没有让evaluator仅仅说几句“我觉得这里不好”,而是尽量将“挑错”结构化:
功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。
这意味着什么?
意味着许多过去被人类神秘化的判断权,正在被一点点拆解为流程、标准和阈值。
最先被自动化的,往往不是体力,而是挑刺。
一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。
过去很多岗位之所以值钱,不是因为会生产,而是因为有权说“这东西算不算过”。
现在,这个权力开始从人手里松动了。
04 先被吃掉的,不是程序员,是“差不多就行”
一看到这种文章,很多人条件反射地问:“程序员是不是要完了?”
Alan说,这种问法太表面,也太懒。
Harness第一波吃掉的,不是某个职业名称。
它先吃掉的,是一种长期存在且在几乎所有知识工作中都很常见的生存方式:
需求不清楚,先做着;中途做歪了,后面再补;效果一般,但能跑;文档没写清楚,不过团队里大家都懂;上线先上,问题回来再修。
说白了,这是一整套基于模糊空间和人类弹性的工作方式。
很多项目之所以还能往前走,不是因为流程真的清晰,而是因为中间总有人靠经验、靠补位、靠临时判断把坑填上了。
Harness正在干的事,恰恰相反。
它在压缩模糊空间,压缩借口空间,压缩“我以为”“差不多”“应该可以”的生存空间。
先定义这一轮什么叫done,再允许开工;做不满足,就打回;验不通过,就继续;不要感觉,要证据。
这套逻辑一旦往前推进,最危险的从来不是最会写代码的人,而是最依赖灰色地带生存的人。
Harness吃掉的不是程序员,先吃掉的是模糊。
不是每个人都会被替代,但每个靠含糊活着的位置都会先贬值。
以前很多岗位靠信息差活着,以后很多岗位会死在标准差上。
05 它为什么偏偏现在火了
很多人会问,这种工作流式的东西以前也有人做,为什么偏偏这次大家开始认真了?
因为以前底模不够强。
说得再直白一点:
以前很多这类框架,看起来很美,跑起来很重,结果却不够硬。
你搭了一堆流程、堆了一堆角色、写了一堆规则,最后只是把一个不太可靠的模型包装成一个更复杂的不太可靠系统。
所以过去很多人对agent、workflow、scaffold这套东西失去耐心,也很正常。
不是方向错了,而是底盘没到那个阶段。
现在不一样了。
模型一旦跨过某个阈值,很多原来像装饰的流程,开始第一次释放真实价值。
因为当底模足够强时,流程不再是在扶一个废柴,而是在放大一个本来就已经能连续工作的系统。
这就是Harness现在突然显得“有点真了”的原因。
不是它的理念今天才出现,而是模型终于强到能吃到流程红利了。
Alan那句说得很准:
模型能力是发动机,Harness是变速箱。
以前没有好发动机,再好的变速箱也是摆设。
但当发动机已经够猛,变速箱才开始决定谁能上高速,谁还在原地轰油门。
所以这波不是单纯的技术流行,而是行业在发出一个更深的信号:
未来的竞争,不只是谁模型更强,而是谁更先把模型编进生产系统。
06 “人默认站在中间”
最后,Alan放下杯子,说了那天最冷的一句话:
“以前是人盯着软件干活,以后是软件盯着软件干活。”
这句话为什么扎心?
因为它点破了Harness真正改写的不是某一个岗位,而是一个更底层、过去几乎没人怀疑过的前提:
在数字劳动里,默认应该有一个人站在中间。
他来拆任务,他来盯进度,他来判断质量,他来协调返工,他来兜最后的底。
这个“默认站在中间的人”,可能叫程序员,可能叫PM,可能叫TL,可能叫设计负责人,可能叫QA,也可能叫项目经理。
名字不重要。
重要的是,过去整个数字生产系统默认离不开这样一个“人类中枢”。
Harness真正动到的,就是这个中枢位置。
它不是说今天立刻把人赶走,而是在一点点证明:
原来有些拆解可以系统来做,原来有些监督可以系统来做,原来有些验收可以系统来做,原来有些回滚和重试也可以不用人先发现再处理。
当这件事被证明得越来越多,人的位置就不会一下消失,但会开始下沉。
从默认中心,变成例外介入;从全程盯盘,变成只处理边角问题;从流程主人,变成流程观察者。
这才是Harness真正吃掉的东西。
不是程序员,不是产品经理,不是QA,而是这几个角色背后那个更深的假设:
人类默认是流程的中心。
而一旦这个前提开始松动,后面的故事就都不一样了。
工具时代,比的是谁更会用工具。
Harness时代,比的是谁更早接受:
自己不再天然处在系统正中央。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯