Hermes如何在两个月内接棒OpenClaw？

数字货币趋势狂人7 小时前

进入2026年4月，才火了两个月的OpenClaw（俗称“龙虾”）就迎来了它的挑战者。Hermes Agent连续数周占据GitHub Trending榜首，狂揽22,000颗星。它火到什么程度呢？连Anthropic都要抄它的。4月10日，Nous Research的创始人Teknium跳出来吐槽，说Anthropic正在「复制」Hermes自动判断任务完成、主动提醒用户的功能。

社区叙事也因此非常统一，认为Hermes凭借自进化Agent、自动记忆管理和用户建模系统，在技术上全面超越了前任王者OpenClaw，重新定义了开源Agent的方向。

不过，如果抛开这些宏大叙事，真正把两边拆开对比，你会发现它们在功能上一模一样的地方，远比差异多得多。

比如定时调度，两边都有。Hermes支持人类可读的格式和标准的cron表达式，每个任务都跑在隔离的会话（session）里。OpenClaw也同样支持at、every、cron三种调度类型，任务直接持久化写进本地的JSON文件，重启也不会丢。

再比如子Agent委派，两边都有。Hermes的delegate_task支持单任务和最多3个并行子任务，子Agent环境完全隔离，干完活只返回一个摘要。OpenClaw的sub-agent机制也支持这种后台隔离执行和结果回传，甚至还能配置嵌套深度。

浏览器自动化、TTS（语音合成）、Vision视觉能力、图像生成、语音交互，两边也全都有。Gateway方面，Telegram、Discord、Slack、WhatsApp、Signal等20多个平台的消息集成，两边也毫无悬念地全都有。

对着清单一项项打勾就会发现，两者的功能几乎完全重合。所谓功能表上的「绝对碾压」根本不存在。

那么问题来了，既然功能都一样，Hermes凭什么火成这样？社区里被吹上天的「自进化」「自动记忆」「用户建模」，到底有多少是真正的底层结构差异？

会自己长大的Skill

翻遍两边的默认配置，你能找到的唯一硬核差异就一个，即，Hermes在Skill（技能）上实现了自动进化的闭环。

Skill算是Agent的工作流知识单元，说白了就是一个Markdown文件，专门告诉Agent遇到某类任务该按什么步骤干、中间调什么工具、搞砸了怎么救场。

Hermes把技能的生命周期硬生生劈成了两截。一截是运行时的静默生成，另一截是离线的硬核进化。

先说生成。平时让Agent干活，只要它在中间调用了5次以上工具，或者出了错又自己把流程救回来了，再或者你作为用户直接纠正了它的输出，主仓库里一套写死的硬规则就会被触发。Agent会默默把刚才那套跑通的工作流打个包，存成本地的SKILL文件。这一步完全静默，很多时候你根本不知道它又给自己写了个新技能。

等下次再遇到类似任务，它会自动去扫索引。这个加载过程分四层渐进，就像去图书馆找资料。它先看目录卡片（Tier 0），只把名称和描述塞进系统提示词里，大概占3,000个token。方向对了，再逐层去书架拿书，把完整内容展开。

但真正让Hermes拉开身位的，是第二步的进化。

Hermes内置了一套离线批量进化算法，还专门拉了一个独立仓库（hermes-agent-self-evolution）。引擎用的是DSPy框架，加上一套叫GEPA的核心算法。

GEPA的全称是Genetic-Pareto Prompt Evolution。这套体系并非Hermes自创，出自Lakshya Agrawal等人的一篇ICLR 2026 Oral论文，标题就叫《反思性提示词进化可以跑赢强化学习》。

现在的学术圈搞技能进化，大部分都在走RL（强化学习）的路线。像SkillRL或者SAGE这些框架，连名字都带着RL，指望用梯度更新来强化技能库。但GEPA走了一条完全对立的路，刻意抛弃了强化学习。GEPA论文本身就是在证明一件事，哪怕没有梯度更新，靠大模型的反思能力加上进化算法，不仅能跑赢RL，样本利用效率还更高。

它是怎么做的呢？这套算法有三个硬核的底座。

首先是反思性变异（Reflective mutation）。它不是瞎猜式的随机变异。大模型会去读之前的执行轨迹（trace），自己反思这次为什么做对了，为什么做错了，提示词到底该改哪几个字。

其次是帕累托前沿选择（Pareto frontier selection）。生成了一批变异的候选技能后，它不是一刀切只留全局均分最高的。只要某个候选在哪怕一个评估样本上表现最强，它就会被保留下来。这么做是为了保证技能探索的多样性和鲁棒性。

最后是自然语言反馈作为变异信号。传统RL靠数值reward引导参数更新，但数值信号颗粒度太粗，跑了一次得0.6分，你根本不知道是哪里对哪里错。GEPA的每次变异用的都是具体的自然语言反馈，比如「这一步没检查边界条件」「应该先读配置再写缓存」。LLM读得懂这种反馈并据此产生下一轮变体，比解读一个浮点数有效得多。

把它串成工作流就是这样。系统定期去读现有的SKILL文件，去历史会话里抽样（或者干脆自己合成）搞出一个评估集。然后GEPA介入，看执行轨迹，反思提意见，生成候选变体，跑一轮评估，最后用帕累托算法挑出赢家。

这套离线的进化闭环跑完，得出优化后的Skill后，它不会直接覆盖原文件，而是老老实实生成一个PR（Pull Request），必须要等你作为人类审核员点头合并，这个进化的技能才会真正生效。系统永远不会进行直接提交。

这直接戳破了社区里那套「用户完全无需介入」的爽文神话。Hermes的态度其实很明确，技能生成可以全自动且静默，但技能进化必须过人眼。

回过头看看OpenClaw。它也不是没有Skill系统，但要命的是每一步都得靠你主动。你需要手动建文件、手动安装、再手动授权，三个条件凑齐了技能才会生效。搞了个新Skill还得重启它统一管理的Gateway网关进程，系统才能认得出。

而且它的加载极其简单粗暴，根本不做任务匹配，只要配了就全量塞进上下文里，除非你手动加个禁用标签把它踢出去。

两边都有Skill。真正的区别就在于谁来按下启动键。Hermes说「放着我来」，OpenClaw说「你自己搞」。

谁在替谁记事

如果说Skill解释了Hermes为什么「越用越快」，那社区里传得神乎其神的另一半叙事「它懂我是谁」，就得归功于记忆系统了。

现在的三大主流Agent（Claude Code、OpenClaw、Hermes）其实都有自动记忆。但只要稍微深挖就会发现，它们服务的对象、触发机制和记忆保质期完全是两码事。

先说Claude Code。它的自动记忆（auto-memory）是默认开着的，平时干活时会自动把构建命令、调试经验、架构笔记甚至代码风格都记下来，而且每24小时就跑一次Auto Dream来整理，把过期或者自相矛盾的东西清掉。听起来很智能，但这套系统有着极其严格的项目隔离。

它的边界卡死在git root（项目根目录）上，项目A里学到的血泪教训，绝对带不到项目B里。它不记你的个人偏好，不关心坐在屏幕对面的是谁，脑子里只有「这个项目该怎么跑」。

再说OpenClaw，它的记忆系统就更偏长程。每次启动对话，它都会把包括MEMORY.md和USER.md在内的8个底层文件强制灌进自己的脑子里。这两个文件不仅跨项目共享，而且会自动写入。

那它是怎么写入的呢？它的写入机制极其被动，更像兜底。在每次对话的上下文（token）快要撑爆、系统准备做大压缩（compaction）之前，Agent会悄悄跑一个silent turn（隐藏轮次）。它会在这个轮次里，把当前聊过的重点随手记到当天的日记文件里，同时把关于你的偏好写进长期挂载的MEMORY.md或USER.md。

所以你很久没用OpenClaw，隔几天一打开发现它「居然还记得你是谁」，靠的就是这张被动结成的长期大网，那些偏好早就被塞进了几个启动必读的文件里。这确实能让人产生「这AI可以养」的实感。但本质上更像是一种求生本能，眼看脑子装不下了赶紧存一下档。至于那些老旧日记，如果不用外挂的语义向量数据库支持，它只能靠关键词生搜。

在这个维度上Hermes是另一套逻辑。在v0.7版本之前，Honcho是Hermes里唯一写死的长期记忆后端，没有别的选项。

这个之前是默认选项的Honcho设计得很巧妙。绝大多数Agent的记忆系统（包括Hermes的默认内置记忆）本质上是一个被动的记录仪。你聊了什么，它切碎了转成向量塞进数据库，下次遇到相似的话题再通过计算距离（Embedding余弦相似度）捞出来。

Honcho不走这条路。它是一个「AI原生」的记忆后端，主打的是异步的辩证推理（Dialectic reasoning）和深度实体建模。

你跟Agent聊完天，主会话结束了，但Honcho的活才刚开始。它会在后台拉起额外的模型调用，对刚聊完的历史进行分析，提炼出你话里的概念（Entity），提取底层偏好，甚至把你前后矛盾的话进行辩证和对齐。它把你随口说出的碎碎念，计算成结构化的「洞察（Insight）」。

听着非常先进，但它也非常费token，容易把关键细节给洗掉。设成插件，更安全。

但就算没有Honcho，Hermes的记忆写入都比OpenClaw主动得多。Hermes搞了个微调（nudge）机制，根本不等脑子撑爆，大概每聊15轮对话就会被硬性触发一次。这就是系统强制塞给Agent的一条反思指令，赶紧回顾一下刚才聊的，看看这人有什么习惯值得记一笔。这种高频的主动反思，让Hermes在同等时间里写进持久文件的信息量大得惊人。

不仅写入更积极，Hermes找回记忆的手法也更硬。它在默认架构里内置了SQLite FTS5的全文检索能力。不用再去费劲配什么词向量服务，Agent想翻旧账，直接就能去庞大的过往聊天记录里扫街。

把这三家摆在一起看，那条进化线就清晰了。OpenClaw是一套被动触发的长期记忆体系。Claude Code做到了主动记录和整理但底线是对事不对人。而Hermes把触发时机做得极其主动，记忆插件随意切，全局共享，还默认配齐了能翻遍所有历史的检索利器。

日常用起来的体感差异也就是这么拉开的。OpenClaw是在快崩溃前才想起来认识你一下。Hermes则是每隔一会儿就在暗中揣摩你的心思，并且能随时翻出你们俩说过的话。

把复杂度藏起来

无论是Skill的自生成，还是记忆的高频主动写入，背后指的其实都是同一件事，即，Hermes只是替你把本该你做的决定都做了。

但是系统复杂度这种东西是守恒的。

你不用动手，不代表决策凭空消失了，它只是从你的手动操作转移到了底层硬编码的死规则里。

在搭这套harness的过程里，Hermes的设计者领悟了一个道理，模型判断不可信，那就做成死规则。

这套harness远比Anthropic之类的要死。Agent干活的时候并不是一个纯粹的大模型在裸跑思考，大模型外面严严实实地包着一层代码框架，这层框架里写满了条件判断。

工具调用满5次了吗？对话轮数凑够15轮了吗？刚才是不是刚死里逃生重试了一次？用户有没有明确开口指出错误？这些问题系统根本不打算交给大模型去模糊判断，而是用确定性的代码一条条死盯。条件一满足，立刻执行写好的动作，去生成初始技能，或者硬塞反思指令，再或者把某句话记进长期文件里。

这些遍布各处的防御网，就是被转移走的那部分复杂度。本来该由用户在使用过程中自我规范，现在全写死在Hermes的代码里。

Hermes写这些规则依靠的就是设计判断。调用5次工具触发技能生成，设成3次太容易误触发，设成8次又可能漏掉有价值的工作流。每15轮反思一次，而不是每轮都反思，因为那会产生海量垃圾记忆且烧钱。

你坐在屏幕前觉得什么都不用管真爽，背后是Hermes的开发团队提前把所有判断逻辑替你写死了。

自动化并没有消灭决策，它只是把决策藏到了看不见的地方。

为了保证这套硬规则在没有人类盯着的时候不翻车，Hermes在底层做了一系列防御性设计。

首先看上下文管理。当对话撑到85%阈值时，Hermes根本不叫大模型来做智能摘要，它的ContextCompressor就是一套纯粹的字符串替换逻辑，把旧的工具输出直接换成一个占位符，粗暴但绝对安全。而记忆层面它用的是冻结快照，开机时把记忆一次性倒进系统提示词里，中途不刷新，等下次重启才生效。这牺牲了实时性，但换来了前缀缓存稳定的命中率，直接砍掉了大概75%的token输入成本。两个选择的精神一致，session内部不让LLM去做关于上下文和记忆的动态判断，用最笨的规则保住确定性。

再看它的安全审查。内置的Smart审批模式同样不让大模型当裁判去判断一条命令危不危险，而是直接拿一套硬编码的黑名单去正则匹配终端操作。匹配中就必须人类点头确认。

它甚至连搞生态扩展的插件系统，都把开发者当成了潜在敌人。Event Hooks系统里有6种钩子，其中5种全都是触发即忘（fire-and-forget）的看客，系统根本不管它们的返回值。想修改Agent的运行上下文只有一个唯一的注入点。官方死死卡住一条底线，就算插件代码跑崩了也绝不拖垮Agent的主循环。

这几个看似保守的选择，底层逻辑高度一致。

今年初Chroma团队做过多轮对话压测，单轮变多轮后，模型平均性能直接掉39%，最惨能掉85%。同一时期的记忆综述论文也指出，在超长上下文施压下，死板的规则化跑分愣是碾压了让大模型全权统管的方案。

说白了，当大模型驾驭超长上下文的底子还虚的时候，那些听起来越智能的统管方案越容易原地爆炸。反倒是越笨的死规则越靠得住。在平时跑任务的环境里，不翻车才是最高优先级。这是一个诚实的工程判断。

一条「干预递减」的光谱

把这几家串起来看，不管是自动写技能、主动存记忆，还是故意退一步的技术栈选择，最终落点都是同一个产品判断，到底该让用户管多少事？

从Claude Code和Codex，到OpenClaw，再到Hermes，市面上的开源Agent其实铺成了一段清晰的光谱。一端是「所有决定都由人来做」的生产工具，必须让开发者看diff、批命令、盯每一步。在真实业务里精确控制永远是第一顺位，这不是技术不到位，是产品定位决定的。另一端是「全都交给Agent包办」的自动化工具。

Hermes直接站在了最远那头。

它押注的是大部分用户既不想弄懂、也不屑于弄懂Agent怎么跑起来。你只管张嘴提需求，技能匹配、记忆分类、上下文压缩，全都在阴影里完成。它的野心不是让你觉得它好用，而是让它在不知不觉中自己越变越好。

扛不住硬活，但方向对了

尽管Hermes已经很克制，用各种技术保守的规则系统剥夺了模型的自由判定权，以使这个更自动化的系统能够稳定。就放了这么点非规则的权限，模型就开始拉垮。

重灾区就是那套引以为傲的技能系统。不止一个高阶玩家抱怨，自己花好几个小时手动精调出来的技能，被全自动的进化流程直接覆盖掉，这完全是没法接受的灾难。

自动记忆微调的机制同样经不起细看。nudge的本质是让Agent自己判断这轮有没有值得记的，但社区发现Hermes判断自己「是否完成了任务」时几乎总觉得自己成功了。所以反思出来的记忆，非常薄弱。

如果是拿去拟一份核心合同、过一遍底层代码、或者搭复杂的财务模型，全自动模式本身就是一个巨大的隐患。这也是那些老牌专业工具不敢直接上全自动的原因，专业人士是会为Agent的脑抽付出真金白银代价的。

但在写写周报、翻翻天气、或者理一理本地文件这种容错率极高的日常重复任务里，Hermes现在确实能站得住。只要你给它二十几次迭代的机会，那些慢慢攒起来的技能和记忆，确实能让它跑得又稳又快。

这实打实的体感，足够它圈住第一波忠实用户了。

更重要的是，它踩在了一个基本确定的方向上。

梳理这两个月的发展，你会看到一条非常有意思的演进弧线。

2026年2月25日Hermes首发，打出的旗号是「与你共同成长的Agent」。它靠着主动记忆、自动进化和强行替用户做决定的激进路线，一口气冲到了57,200颗星。

但到了4月3日发布的v0.7韧性更新里，它其实悄悄往回撤了半步。Hermes引入了抽象接口，把原本写死在系统里的唯一高级记忆后端Honcho，降级成了和新接入的MEM0、ByteRover等6个第三方服务平起平坐。反而把最原始的纯文件加全文检索顶成了默认兜底方案。

一个自称替你决定一切的系统，主动把复杂的方案剥离，把记忆的选择权交还给了用户。这是先行者在撞上社区真实投诉后的一种战略让步。

Hermes撤回一点，觉得现在的规则系统还吃不透所有复杂场景，有些选择不必强行替用户做。

而另一边的OpenClaw，动作却是截然相反的补课式加强。过去短短几天里它连跑两步。

4月5日放出了类似Claude Auto Dream一样的Dreaming做离线记忆整理，把已有的短期流水文档在离线时段提炼、评分、晋升为持久的MEMORY.md条目。

4月10日的更新里，它又砸出Active Memory，直接在主回复前跑一个专门的记忆子Agent。这套大模型做裁判的主动派打法，粒度比Hermes固定15轮一次的微调还要细、还要聪明。

这说明，不管是Anthropic还是OpenClaw，大家全都在往「替你做决定」这条路上靠。

Hermes只不过是下注下得最早，也最狠。

它用两个月的时间死死卡住了全自动Agent的叙事高地和用户心智。当OpenClaw在后面拼命追赶、用更高级的子Agent补齐主动记忆机制的时候，心智已立的Hermes反而有了谨慎和退让的余裕。

它赌的不是今天的系统能有多完美，而是在提前做一场局。

它算准了只要底层模型的上下文能跨过那条及格线，今天这些硬凑出来的规则安全线就能跟着往上涨，快照可以实时刷新，硬编码条件也能放心交给大模型去判断。那些看似保守的默认层，迟早有一天会彻底吃掉今天显得高大上的接口层。

先占生态位，再等技术升级。等到质变那天，Hermes早已经攥着真实用户、技能生态和记忆底座站在终点了。

Agent这片修罗场里，谁先在技术将将够用的时候用兜底工程卡住位置、让产品能用起来，往往比单纯的技术领先管用得多。Manus是这样，OpenClaw是这样，如今的Hermes也是这样。

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场