Anthropic发布Opus 4.7:隐藏的八大变革性功能解析

隔夜的粥3 小时前

作者:硅谷Alan Walker

发布会把聚光灯打在SWE-bench上,但真正的信号藏在脚注、引言块和一句不起眼的auto mode里。Palo Alto的California Ave上,早晨九点半那种光,斜着从Coupa Café的玻璃窗扫进来,照在Alan Walker半杯凉掉的flat white上。他刚刷完Anthropic的官网,往椅背上一靠,对着对面刚坐下的Tony开口。

"Anthropic这次发布Opus 4.7,发布会搞得挺克制——主角是SWE-bench那几根柱子、客户quote轮播、一张漂亮的alignment图。大部分科技媒体抄完新闻稿就走了。"

"但这玩意儿真正的东西,都埋在脚注、migration guide、和一句'auto mode扩展到Max用户'那种轻描淡写的地方。你得像读10-K似的去读它——主文是给散户看的,附注才是给机构看的。"

"今天这杯咖啡喝完之前,我拆八把刀。每一把我都告诉你它砍向谁。"

96Gh5PrFQe1Vuh2mfZJQJN8UV4fvFdIUbPBcWpHB.jpeg

xhigh不是档位升级——Default被偷偷拉高了

发布会一笔带过:"In Claude Code, we've raised the default effort level to xhigh for all plans."

大部分人看到xhigh以为是"又多了一个档",跟iPhone多一个颜色似的。错。真正的信号是最后半句——Claude Code里所有plan的默认档位被拉到xhigh。

这是一个非常Anthropic的动作:悄悄地,把所有人的基线拉高一档,然后算力账单不变。等于给你塞了一个更聪明的同事,但不涨工资。

GFOvoHvh3uGslc88TbQFpt06YnlBCPVD3BvPSiJM.jpeg

TONY: 等等,这不就意味着原来Pro用户花$20拿medium,现在直接吃到xhigh?

ALAN: 对。而且Hex那段quote你仔细读——"low-effort 4.7 ≈ medium-effort 4.6"。叠加默认档拉高,等于普通用户拿到的有效智能,跳了整整两档。

发布会没有大写这个数字,因为他们不想让token消耗那页不好看。

◆ 落地场景

周一早上你让Claude Code改一个五百行的后端模块——原来你得手动敲/effort max才敢让它自己跑;现在你什么都不配,默认就是xhigh,一杯咖啡回来活儿干完。这个区别不是10%快,是"你不需要管它了"。

KILL LIST → "AI调优/prompt配置"类SaaS——那些教你怎么调thinking budget、怎么选effort的工具,默认值自动对了,中间层没生意

→ 初级工程师岗位——xhigh默认干的活,已经是三年经验工程师的质量下限

→ 外包code review公司——下面第三把刀会把这个按死

—— BLADE NO. 02 Auto Mode —— Permission UI的静默革命

发布会第三行脚注:"Auto mode扩展到Max用户"。就一句话。

Anthropic官网原话:"auto mode is a new permissions option where Claude makes decisions on your behalf."——"代你做决策"。

过去一年所有agent创业公司在卷两个极端:要么skip-all-permissions一把梭(Devin、Cognition那条路),要么疯狂弹窗approve/deny(Cursor早期)。Anthropic走了第三条路:训练模型自己判断什么该问、什么不该问,并把这个判断力内化进auto mode。

vkGRw5wkrWkvwj264HFonAE3slYnQAfamukxXroS.jpeg

KAI: Alan,这跟skip permissions有啥本质区别?不都是放手让它跑?

ALAN: 区别大了。skip是你把保险栓拔了,出事你负责。auto是模型自己装了一套保险——危险操作它主动停下问你,低风险自己处理。本质是把"permission UI"这一整层,从产品外壳挪到了模型权重里。

TONY: 所以YC那一堆做"agent治理/guardrails"的初创…

ALAN: 产品等于被做进模型了。这就是Andrej去年说的"the model is the product",活生生的例子。

KILL LIST → Agent guardrails/approval-flow SaaS——那些做"人机协同审批平台"的,整个品类被降维

→ RPA传统行业(UiPath/Automation Anywhere)——它们的核心价值就是"可控的自动化",现在可控自己内生了

→ BPO外包行业的中后台——菲律宾印度那些数据录入、客服分派、发票对账,auto mode跑一天,一个团队的活

—— BLADE NO. 03 /ultrareview——给Senior Engineer的一张刺杀令

官网用词:"a dedicated review session that reads through changes and flags bugs and design issues that a careful reviewer would catch." 注意那个词——"a careful reviewer"。不是junior,不是linter,是"careful reviewer"。翻译成人话:senior engineer。

CodeRabbit的David Loker给的数字更直接:recall涨10%以上,在最复杂的PR里面挖出最难抓的bug,precision几乎没掉。recall涨、precision不掉——code review领域里,这就是holy grail,上一个拿到这个组合的叫Google内部的Tricorder,做了十年。

ErlVwg3sbaOIm0nO7c39Ux33q7VHLgigmrdJJUYI.jpeg

MARCUS: 我们FAANG一个staff eng一年$800K,review PR占一半时间。这东西如果真能打…

ALAN: Pro和Max用户免费给三次ultrareview,让你试毒。这是硅谷惯用的"freemium下毒"套路——给你尝到味道,再让你回不去。

MARCUS: 所以这不是工具,是替身。

ALAN: 不完全。它不替掉staff,它替掉staff每天下午review十个PR那两小时。释放出来的那两小时,senior才是senior,不是人肉GitHub bot。

◆ 落地场景

一个二十人工程团队,原来tech lead每天花三小时review PR。上/ultrareview,tech lead只需要看Claude标红的那几个"design issue"——三小时变二十分钟,省下的时间真的去做架构。这不是"AI辅助",是岗位职责重写。

KILL LIST → 所有独立的AI code review创业公司——CodeRabbit、Codacy、Qodo,它们现在是Anthropic的feature

→ SAST/DAST传统安全扫描工具(Snyk/Checkmarx)——规则驱动的静态扫描,被"像人一样读代码"的方式碾过

→ 印度/东欧外包code review服务——这个市场过去十年估值几十亿美金,现在直接蒸发

—— BLADE NO. 04 2,576像素视觉——Computer-Use从Demo变武器

"可接受图像最长边到2,576像素,约3.75兆像素,是之前三倍多。"

这一条最被低估。大部分人看到就觉得"哦更高清了"。错得离谱。这是computer-use这整个品类从demo进入production的分水岭。

证据在发布页最下面那个引用块里, XBOW的CEO Oege de Moor说的一句话——

2RtvEVVwzKeG2pGvSzqKFlvgUgXSNh9N0q2yTjfX.jpeg

54.5% → 98.5%。这不是一个渐进的提升,这是一个从"不能用"到"不能不用"的跃迁。Opus 4.6还在猜屏幕上的按钮在哪,4.7已经能读密集仪表盘上的小字和嵌套表格。

SARAH: 我们企业客户一直卡在这个点。4.6让它自动处理发票扫描件,错一半——老板直接说"别玩了"。

ALAN: 现在98.5%这个数字,意味着RPA、IT运维、报销审计、老系统搬迁——所有还靠人眼看屏幕的工作流,第一次有了可以接受的托底模型。

KAI: computer use不再是demo video,是生产力。

ALAN: 对,而且注意——这是模型层面的升级,不是API参数。老用户什么都不改,自动吃到。Anthropic在悄悄把所有集成方的产品力往上推一截。

KILL LIST → OCR/文档理解SaaS(Rossum/Hyperscience/Nanonets)——它们的moat本来就是"视觉+结构化",现在被通用模型追平甚至超过

→ 传统RPA三巨头——UiPath的屏幕识别核心技术,价值一夜蒸发一半

→ 企业应用数据录入部门——医疗保险理赔、银行KYC、政府表格处理,整条人肉流水线

→ 自主渗透测试/red team行业——XBOW这种公司反而吃到红利,但传统pentesting顾问服务被打穿

—— BLADE NO. 05 File-System Memory——Anthropic选了最朴素那条路

发布会一条脚注:"Opus 4.7 is better at using file system-based memory. It remembers important notes across long, multi-session work."

OpenAI走的是"embedded memory"——把记忆糊在模型里,你看不到、也改不了。Google在搞神秘的infini-attention。Anthropic这次亮牌了:文件系统就是记忆。

Claude写.md笔记,读.md笔记,你随时能cat出来看。

这个选择看似low-tech,实际上是第一性原理的胜利。记忆的核心问题从来不是存储,是可审计、可编辑、可迁移。

向量数据库和embedded memory都违背这三点。

jLHSiE7k9DnUUoPqXPwAIR3Hn44alinSFi2dyjPW.jpeg

ERIC: 企业客户最怕的就是"这AI到底记住了我什么,我不知道"。

ALAN: 文件系统记忆直接解决合规。GDPR删除权?rm一下。SOC2审计?cat给审计师看。这不是技术优势,是法律优势。

ERIC: 所以那些做"AI memory layer"的创业公司…

ALAN: Mem0、LangMem、Zep——这一年融了不少钱。它们解决的是"模型自己不会管记忆",Anthropic把这个能力写进了模型里,而且用的是最朴素的POSIX文件系统。中间层被跳过。

KILL LIST → AI Memory基础设施初创(Mem0/LangMem/Zep)——价值主张被内化到模型

→ 部分向量数据库的agentic memory使用场景——Pinecone、Weaviate的一条主要叙事受影响

→ 企业知识管理SaaS的AI增强层——不需要第三方中间件了,Claude直接读写项目文件

—— BLADE NO. 06 Task Budgets——给Agent装刹车,然后松开油门

"Giving developers a way to guide Claude's token spend so it can prioritize work across longer runs."(public beta)

这个被所有媒体漏掉了,但它是长程agent这一年最重要的工程突破。

过去一年所有agent公司都在对同一个恶魔:长任务的token失控。给Devin或者Cursor一个复杂任务,它自己跑两个小时,回来告诉你烧掉了$800,活儿只干了一半。老板看到账单眼睛都绿了。

Task budget的设计非常巧妙——不是简单的token上限,而是让模型自己看到预算在倒数,自己决定跳过哪些步骤、怎么把活儿做到最关键的完成度。

K7I0I73a1CsfDYA1oYqmrfEqwatBMhpl2mUXHswo.jpeg

CLAIRE: 这不就是工程项目管理的"最小可交付"思维?

ALAN: 对。Anthropic把scope-cutting这个PM技能,训进模型了。给你$10预算跑agent,它会自己决定哪个功能做到80%就收,哪个必须做到100%。

TONY: 所以Notion那个quote——"implicit-need tests"第一个能通过——

ALAN: 对上了。模型开始有"资源意识",能猜出你没说但期望的东西,在预算内优先保。这是把"senior engineer judgment"训进去了。

KILL LIST → AI cost-control/LLM可观测创业(Helicone/Langfuse成本模块)——核心功能被native化

→ Agent orchestration框架(部分LangGraph/CrewAI用法)——模型自己能规划预算,不需要外层调度

→ 传统咨询行业的项目管理部分——"资源分配+交付裁剪"这一层智力,被模型干了

—— BLADE NO. 07 写代码前先做Proof——Vercel发现的新行为

Joe Haddad, Distinguished Eng at Vercel: "It even does proofs on systems code before starting work, which is new behavior we haven't seen from earlier Claude models."

这一句被埋在二十多条quote里面,没人放大。但老OG读到这儿直接把咖啡放下了。

"proofs on systems code"——在写系统级代码之前,模型会先自己做数学/形式化证明。这不是更聪明的意思,这是模型开始在用跟PhD验证论文一样的方法验证自己的代码。

TjbxqXUw7kZ4syBaibT95QBQbQ9hjEf0bpta8s99.jpeg

MARCUS: 这个行为出现在训练数据里,说明Anthropic在RL阶段明确奖励了"先证明后写码"。

ALAN: 对,这是有意识地训练出来的。组合Vercel那段和Genspark的"loop resistance"、以及Hex的"correctly reports when data is missing instead of plausible-but-incorrect fallbacks"——你看到的是一个完整的品味训练工程:让模型开始像不好骗的工程师一样工作。

MARCUS: 不好骗——意思是不自欺。

ALAN: 对。Opus 4.7不再为了完成任务而给你编一个看起来能跑的方案。这是alignment实打实落到产品层面的一次体现。

KILL LIST → 形式化验证工具细分市场(部分)——Coq/Lean/TLA+这些高门槛工具的一部分入门场景,模型自己帮你搞

→ 高频交易/区块链安全审计行业——审计员核心工作("读代码找不变量违反")被模型协作化,审计单价被压

→ 操作系统内核/嵌入式外包——那些需要proof-based reasoning的细分,门槛被拉平

—— BLADE NO. 08 Cyber Verification——监管套利的窗口被打开了

"During its training we experimented with efforts to differentially reduce these capabilities."

最骚的操作在这里。Anthropic承认在训练过程中主动降低了Opus 4.7的网络攻防能力,因为背后那个更强的Mythos Preview不放出来。然后——

然后他们开了一个Cyber Verification Program,让合法的安全研究员、pentester、red team认证后可以解锁更高权限。

LnbLQnZd3L8aUROQghoR9MDakZs7RrKLw6OTLPrD.jpeg

ERIC: 这…这不就是出口管制的模型版?

ALAN: 更准确地说,是"能力KYC"。模型有三层能力闸门,你证明身份才能解锁相应层级。监管套利的窗口第一次被AI公司自己明码标价。

ERIC: 对创业公司意味着什么?

ALAN: 第一,通用"AI + 安全"的创业,想做高端场景得先拿Anthropic的认证,供应链本身就被管。第二,一个全新的品类会出现:帮你通过Anthropic认证的咨询服务——就像今天帮你通过SOC2的公司一样。第三,这是Anthropic在练手未来所有frontier model的放出方式,Mythos放出来只会更严。

TONY: 所以Palantir、Booz Allen这种政府合规身家的公司…

ALAN: 白捡一层护城河。他们本来就有清算级身份,现在天然解锁顶层模型。

◆ 落地场景

一个想做AI pentesting的YC创业者,2026年Q2起,商业计划书第一页必须回答"你们有没有拿到Anthropic Cyber Verification"。没有?VC不投。拿到?估值乘2。一个认证,资本市场的分水岭。

KILL LIST & 新赛道

→ 通用网络安全创业SaaS——没有Anthropic认证的,拿不到上层模型能力,天花板被锁死

→ "AI模型能力合规咨询"新赛道诞生——未来12个月会冒出一批帮企业做frontier model认证的中介

→ 传统军工、政府系集成商(Palantir/Booz Allen)——天然受益,门槛变成护城河

→ 开源/本地部署阵营——Llama、Qwen、DeepSeek路线反而受益,"不认证也能用"成为核心卖点

窗外California Ave的太阳已经爬过Palo Alto Creamery的屋顶,斜光打在玻璃上。

"八把刀,砍向八个方向。有些赛道今天开始死,有些今天开始生。"

"每一代frontier model的发布,真正的东西都不写在Headline上。"他对Tony说,"发布会是给分析师看的。脚注和quote里的数字,才是给我们看的。"

"别看热闹。"

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场