Hermes如何在两个月内接棒OpenClaw?
进入2026年4月,才火了两个月的OpenClaw(俗称“龙虾”)就迎来了它的挑战者。Hermes Agent连续数周占据GitHub Trending榜首,狂揽22,000颗星。它火到什么程度呢?连Anthropic都要抄它的。4月10日,Nous Research的创始人Teknium跳出来吐槽,说Anthropic正在「复制」Hermes自动判断任务完成、主动提醒用户的功能。
社区叙事也因此非常统一,认为Hermes凭借自进化Agent、自动记忆管理和用户建模系统,在技术上全面超越了前任王者OpenClaw,重新定义了开源Agent的方向。
不过,如果抛开这些宏大叙事,真正把两边拆开对比,你会发现它们在功能上一模一样的地方,远比差异多得多。
比如定时调度,两边都有。Hermes支持人类可读的格式和标准的cron表达式,每个任务都跑在隔离的会话(session)里。OpenClaw也同样支持at、every、cron三种调度类型,任务直接持久化写进本地的JSON文件,重启也不会丢。
再比如子Agent委派,两边都有。Hermes的delegate_task支持单任务和最多3个并行子任务,子Agent环境完全隔离,干完活只返回一个摘要。OpenClaw的sub-agent机制也支持这种后台隔离执行和结果回传,甚至还能配置嵌套深度。
浏览器自动化、TTS(语音合成)、Vision视觉能力、图像生成、语音交互,两边也全都有。Gateway方面,Telegram、Discord、Slack、WhatsApp、Signal等20多个平台的消息集成,两边也毫无悬念地全都有。
对着清单一项项打勾就会发现,两者的功能几乎完全重合。所谓功能表上的「绝对碾压」根本不存在。
那么问题来了,既然功能都一样,Hermes凭什么火成这样?社区里被吹上天的「自进化」「自动记忆」「用户建模」,到底有多少是真正的底层结构差异?
会自己长大的Skill
翻遍两边的默认配置,你能找到的唯一硬核差异就一个,即,Hermes在Skill(技能)上实现了自动进化的闭环。
Skill算是Agent的工作流知识单元,说白了就是一个Markdown文件,专门告诉Agent遇到某类任务该按什么步骤干、中间调什么工具、搞砸了怎么救场。
Hermes把技能的生命周期硬生生劈成了两截。一截是运行时的静默生成,另一截是离线的硬核进化。
先说生成。平时让Agent干活,只要它在中间调用了5次以上工具,或者出了错又自己把流程救回来了,再或者你作为用户直接纠正了它的输出,主仓库里一套写死的硬规则就会被触发。Agent会默默把刚才那套跑通的工作流打个包,存成本地的SKILL文件。这一步完全静默,很多时候你根本不知道它又给自己写了个新技能。
等下次再遇到类似任务,它会自动去扫索引。这个加载过程分四层渐进,就像去图书馆找资料。它先看目录卡片(Tier 0),只把名称和描述塞进系统提示词里,大概占3,000个token。方向对了,再逐层去书架拿书,把完整内容展开。
但真正让Hermes拉开身位的,是第二步的进化。
Hermes内置了一套离线批量进化算法,还专门拉了一个独立仓库(hermes-agent-self-evolution)。引擎用的是DSPy框架,加上一套叫GEPA的核心算法。
GEPA的全称是Genetic-Pareto Prompt Evolution。这套体系并非Hermes自创,出自Lakshya Agrawal等人的一篇ICLR 2026 Oral论文,标题就叫《反思性提示词进化可以跑赢强化学习》。
现在的学术圈搞技能进化,大部分都在走RL(强化学习)的路线。像SkillRL或者SAGE这些框架,连名字都带着RL,指望用梯度更新来强化技能库。但GEPA走了一条完全对立的路,刻意抛弃了强化学习。GEPA论文本身就是在证明一件事,哪怕没有梯度更新,靠大模型的反思能力加上进化算法,不仅能跑赢RL,样本利用效率还更高。
它是怎么做的呢?这套算法有三个硬核的底座。
首先是反思性变异(Reflective mutation)。它不是瞎猜式的随机变异。大模型会去读之前的执行轨迹(trace),自己反思这次为什么做对了,为什么做错了,提示词到底该改哪几个字。
其次是帕累托前沿选择(Pareto frontier selection)。生成了一批变异的候选技能后,它不是一刀切只留全局均分最高的。只要某个候选在哪怕一个评估样本上表现最强,它就会被保留下来。这么做是为了保证技能探索的多样性和鲁棒性。
最后是自然语言反馈作为变异信号。传统RL靠数值reward引导参数更新,但数值信号颗粒度太粗,跑了一次得0.6分,你根本不知道是哪里对哪里错。GEPA的每次变异用的都是具体的自然语言反馈,比如「这一步没检查边界条件」「应该先读配置再写缓存」。LLM读得懂这种反馈并据此产生下一轮变体,比解读一个浮点数有效得多。
把它串成工作流就是这样。系统定期去读现有的SKILL文件,去历史会话里抽样(或者干脆自己合成)搞出一个评估集。然后GEPA介入,看执行轨迹,反思提意见,生成候选变体,跑一轮评估,最后用帕累托算法挑出赢家。
这套离线的进化闭环跑完,得出优化后的Skill后,它不会直接覆盖原文件,而是老老实实生成一个PR(Pull Request),必须要等你作为人类审核员点头合并,这个进化的技能才会真正生效。系统永远不会进行直接提交。
这直接戳破了社区里那套「用户完全无需介入」的爽文神话。Hermes的态度其实很明确,技能生成可以全自动且静默,但技能进化必须过人眼。
回过头看看OpenClaw。它也不是没有Skill系统,但要命的是每一步都得靠你主动。你需要手动建文件、手动安装、再手动授权,三个条件凑齐了技能才会生效。搞了个新Skill还得重启它统一管理的Gateway网关进程,系统才能认得出。
而且它的加载极其简单粗暴,根本不做任务匹配,只要配了就全量塞进上下文里,除非你手动加个禁用标签把它踢出去。
两边都有Skill。真正的区别就在于谁来按下启动键。Hermes说「放着我来」,OpenClaw说「你自己搞」。
谁在替谁记事
如果说Skill解释了Hermes为什么「越用越快」,那社区里传得神乎其神的另一半叙事「它懂我是谁」,就得归功于记忆系统了。
现在的三大主流Agent(Claude Code、OpenClaw、Hermes)其实都有自动记忆。但只要稍微深挖就会发现,它们服务的对象、触发机制和记忆保质期完全是两码事。
先说Claude Code。它的自动记忆(auto-memory)是默认开着的,平时干活时会自动把构建命令、调试经验、架构笔记甚至代码风格都记下来,而且每24小时就跑一次Auto Dream来整理,把过期或者自相矛盾的东西清掉。听起来很智能,但这套系统有着极其严格的项目隔离。
它的边界卡死在git root(项目根目录)上,项目A里学到的血泪教训,绝对带不到项目B里。它不记你的个人偏好,不关心坐在屏幕对面的是谁,脑子里只有「这个项目该怎么跑」。
再说OpenClaw,它的记忆系统就更偏长程。每次启动对话,它都会把包括MEMORY.md和USER.md在内的8个底层文件强制灌进自己的脑子里。这两个文件不仅跨项目共享,而且会自动写入。
那它是怎么写入的呢?它的写入机制极其被动,更像兜底。在每次对话的上下文(token)快要撑爆、系统准备做大压缩(compaction)之前,Agent会悄悄跑一个silent turn(隐藏轮次)。它会在这个轮次里,把当前聊过的重点随手记到当天的日记文件里,同时把关于你的偏好写进长期挂载的MEMORY.md或USER.md。
所以你很久没用OpenClaw,隔几天一打开发现它「居然还记得你是谁」,靠的就是这张被动结成的长期大网,那些偏好早就被塞进了几个启动必读的文件里。这确实能让人产生「这AI可以养」的实感。但本质上更像是一种求生本能,眼看脑子装不下了赶紧存一下档。至于那些老旧日记,如果不用外挂的语义向量数据库支持,它只能靠关键词生搜。
在这个维度上Hermes是另一套逻辑。在v0.7版本之前,Honcho是Hermes里唯一写死的长期记忆后端,没有别的选项。
这个之前是默认选项的Honcho设计得很巧妙。绝大多数Agent的记忆系统(包括Hermes的默认内置记忆)本质上是一个被动的记录仪。你聊了什么,它切碎了转成向量塞进数据库,下次遇到相似的话题再通过计算距离(Embedding余弦相似度)捞出来。
Honcho不走这条路。它是一个「AI原生」的记忆后端,主打的是异步的辩证推理(Dialectic reasoning)和深度实体建模。
你跟Agent聊完天,主会话结束了,但Honcho的活才刚开始。它会在后台拉起额外的模型调用,对刚聊完的历史进行分析,提炼出你话里的概念(Entity),提取底层偏好,甚至把你前后矛盾的话进行辩证和对齐。它把你随口说出的碎碎念,计算成结构化的「洞察(Insight)」。
听着非常先进,但它也非常费token,容易把关键细节给洗掉。设成插件,更安全。
但就算没有Honcho,Hermes的记忆写入都比OpenClaw主动得多。Hermes搞了个微调(nudge)机制,根本不等脑子撑爆,大概每聊15轮对话就会被硬性触发一次。这就是系统强制塞给Agent的一条反思指令,赶紧回顾一下刚才聊的,看看这人有什么习惯值得记一笔。这种高频的主动反思,让Hermes在同等时间里写进持久文件的信息量大得惊人。
不仅写入更积极,Hermes找回记忆的手法也更硬。它在默认架构里内置了SQLite FTS5的全文检索能力。不用再去费劲配什么词向量服务,Agent想翻旧账,直接就能去庞大的过往聊天记录里扫街。
把这三家摆在一起看,那条进化线就清晰了。OpenClaw是一套被动触发的长期记忆体系。Claude Code做到了主动记录和整理但底线是对事不对人。而Hermes把触发时机做得极其主动,记忆插件随意切,全局共享,还默认配齐了能翻遍所有历史的检索利器。
日常用起来的体感差异也就是这么拉开的。OpenClaw是在快崩溃前才想起来认识你一下。Hermes则是每隔一会儿就在暗中揣摩你的心思,并且能随时翻出你们俩说过的话。
把复杂度藏起来
无论是Skill的自生成,还是记忆的高频主动写入,背后指的其实都是同一件事,即,Hermes只是替你把本该你做的决定都做了。
但是系统复杂度这种东西是守恒的。
你不用动手,不代表决策凭空消失了,它只是从你的手动操作转移到了底层硬编码的死规则里。
在搭这套harness的过程里,Hermes的设计者领悟了一个道理,模型判断不可信,那就做成死规则。
这套harness远比Anthropic之类的要死。Agent干活的时候并不是一个纯粹的大模型在裸跑思考,大模型外面严严实实地包着一层代码框架,这层框架里写满了条件判断。
工具调用满5次了吗?对话轮数凑够15轮了吗?刚才是不是刚死里逃生重试了一次?用户有没有明确开口指出错误?这些问题系统根本不打算交给大模型去模糊判断,而是用确定性的代码一条条死盯。条件一满足,立刻执行写好的动作,去生成初始技能,或者硬塞反思指令,再或者把某句话记进长期文件里。
这些遍布各处的防御网,就是被转移走的那部分复杂度。本来该由用户在使用过程中自我规范,现在全写死在Hermes的代码里。
Hermes写这些规则依靠的就是设计判断。调用5次工具触发技能生成,设成3次太容易误触发,设成8次又可能漏掉有价值的工作流。每15轮反思一次,而不是每轮都反思,因为那会产生海量垃圾记忆且烧钱。
你坐在屏幕前觉得什么都不用管真爽,背后是Hermes的开发团队提前把所有判断逻辑替你写死了。
自动化并没有消灭决策,它只是把决策藏到了看不见的地方。
为了保证这套硬规则在没有人类盯着的时候不翻车,Hermes在底层做了一系列防御性设计。
首先看上下文管理。当对话撑到85%阈值时,Hermes根本不叫大模型来做智能摘要,它的ContextCompressor就是一套纯粹的字符串替换逻辑,把旧的工具输出直接换成一个占位符,粗暴但绝对安全。而记忆层面它用的是冻结快照,开机时把记忆一次性倒进系统提示词里,中途不刷新,等下次重启才生效。这牺牲了实时性,但换来了前缀缓存稳定的命中率,直接砍掉了大概75%的token输入成本。两个选择的精神一致,session内部不让LLM去做关于上下文和记忆的动态判断,用最笨的规则保住确定性。
再看它的安全审查。内置的Smart审批模式同样不让大模型当裁判去判断一条命令危不危险,而是直接拿一套硬编码的黑名单去正则匹配终端操作。匹配中就必须人类点头确认。
它甚至连搞生态扩展的插件系统,都把开发者当成了潜在敌人。Event Hooks系统里有6种钩子,其中5种全都是触发即忘(fire-and-forget)的看客,系统根本不管它们的返回值。想修改Agent的运行上下文只有一个唯一的注入点。官方死死卡住一条底线,就算插件代码跑崩了也绝不拖垮Agent的主循环。
这几个看似保守的选择,底层逻辑高度一致。
今年初Chroma团队做过多轮对话压测,单轮变多轮后,模型平均性能直接掉39%,最惨能掉85%。同一时期的记忆综述论文也指出,在超长上下文施压下,死板的规则化跑分愣是碾压了让大模型全权统管的方案。
说白了,当大模型驾驭超长上下文的底子还虚的时候,那些听起来越智能的统管方案越容易原地爆炸。反倒是越笨的死规则越靠得住。在平时跑任务的环境里,不翻车才是最高优先级。这是一个诚实的工程判断。
一条「干预递减」的光谱
把这几家串起来看,不管是自动写技能、主动存记忆,还是故意退一步的技术栈选择,最终落点都是同一个产品判断,到底该让用户管多少事?
从Claude Code和Codex,到OpenClaw,再到Hermes,市面上的开源Agent其实铺成了一段清晰的光谱。一端是「所有决定都由人来做」的生产工具,必须让开发者看diff、批命令、盯每一步。在真实业务里精确控制永远是第一顺位,这不是技术不到位,是产品定位决定的。另一端是「全都交给Agent包办」的自动化工具。
Hermes直接站在了最远那头。
它押注的是大部分用户既不想弄懂、也不屑于弄懂Agent怎么跑起来。你只管张嘴提需求,技能匹配、记忆分类、上下文压缩,全都在阴影里完成。它的野心不是让你觉得它好用,而是让它在不知不觉中自己越变越好。
扛不住硬活,但方向对了
尽管Hermes已经很克制,用各种技术保守的规则系统剥夺了模型的自由判定权,以使这个更自动化的系统能够稳定。就放了这么点非规则的权限,模型就开始拉垮。
重灾区就是那套引以为傲的技能系统。不止一个高阶玩家抱怨,自己花好几个小时手动精调出来的技能,被全自动的进化流程直接覆盖掉,这完全是没法接受的灾难。
自动记忆微调的机制同样经不起细看。nudge的本质是让Agent自己判断这轮有没有值得记的,但社区发现Hermes判断自己「是否完成了任务」时几乎总觉得自己成功了。所以反思出来的记忆,非常薄弱。
如果是拿去拟一份核心合同、过一遍底层代码、或者搭复杂的财务模型,全自动模式本身就是一个巨大的隐患。这也是那些老牌专业工具不敢直接上全自动的原因,专业人士是会为Agent的脑抽付出真金白银代价的。
但在写写周报、翻翻天气、或者理一理本地文件这种容错率极高的日常重复任务里,Hermes现在确实能站得住。只要你给它二十几次迭代的机会,那些慢慢攒起来的技能和记忆,确实能让它跑得又稳又快。
这实打实的体感,足够它圈住第一波忠实用户了。
更重要的是,它踩在了一个基本确定的方向上。
梳理这两个月的发展,你会看到一条非常有意思的演进弧线。
2026年2月25日Hermes首发,打出的旗号是「与你共同成长的Agent」。它靠着主动记忆、自动进化和强行替用户做决定的激进路线,一口气冲到了57,200颗星。
但到了4月3日发布的v0.7韧性更新里,它其实悄悄往回撤了半步。Hermes引入了抽象接口,把原本写死在系统里的唯一高级记忆后端Honcho,降级成了和新接入的MEM0、ByteRover等6个第三方服务平起平坐。反而把最原始的纯文件加全文检索顶成了默认兜底方案。
一个自称替你决定一切的系统,主动把复杂的方案剥离,把记忆的选择权交还给了用户。这是先行者在撞上社区真实投诉后的一种战略让步。
Hermes撤回一点,觉得现在的规则系统还吃不透所有复杂场景,有些选择不必强行替用户做。
而另一边的OpenClaw,动作却是截然相反的补课式加强。过去短短几天里它连跑两步。
4月5日放出了类似Claude Auto Dream一样的Dreaming做离线记忆整理,把已有的短期流水文档在离线时段提炼、评分、晋升为持久的MEMORY.md条目。
4月10日的更新里,它又砸出Active Memory,直接在主回复前跑一个专门的记忆子Agent。这套大模型做裁判的主动派打法,粒度比Hermes固定15轮一次的微调还要细、还要聪明。
这说明,不管是Anthropic还是OpenClaw,大家全都在往「替你做决定」这条路上靠。
Hermes只不过是下注下得最早,也最狠。
它用两个月的时间死死卡住了全自动Agent的叙事高地和用户心智。当OpenClaw在后面拼命追赶、用更高级的子Agent补齐主动记忆机制的时候,心智已立的Hermes反而有了谨慎和退让的余裕。
它赌的不是今天的系统能有多完美,而是在提前做一场局。
它算准了只要底层模型的上下文能跨过那条及格线,今天这些硬凑出来的规则安全线就能跟着往上涨,快照可以实时刷新,硬编码条件也能放心交给大模型去判断。那些看似保守的默认层,迟早有一天会彻底吃掉今天显得高大上的接口层。
先占生态位,再等技术升级。等到质变那天,Hermes早已经攥着真实用户、技能生态和记忆底座站在终点了。
Agent这片修罗场里,谁先在技术将将够用的时候用兜底工程卡住位置、让产品能用起来,往往比单纯的技术领先管用得多。Manus是这样,OpenClaw是这样,如今的Hermes也是这样。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯