Claude 4.6震撼发布:华尔街财务、编程、网络安全等多领域全面突破
Anthropic公司最新发布的Claude Opus 4.6模型引发市场震动,其在多个领域的卓越表现令传统行业面临巨大挑战。
消息传出后,金融数据服务商FactSet盘中暴跌10%,S&P Global、穆迪和纳斯达克公司股价纷纷下挫,各大指数全线跳水。

这已经是Anthropic本周第二次搅动市场。
几天前,Anthropic推出一款自动化法律工作的插件,直接引爆了万亿美元级别的软件股暴跌。投资者的恐慌聚焦在一个问题:谁能保证几年内不被AI颠覆?不能就抛售。
而今天的Anthropic更进一步,发布了Claude Opus 4.6,这款模型不仅延续了强大的编程能力,还在多个领域展现了无与伦比的实力。

在GDPval-AA(一项评估金融、法律和其他领域经济价值知识工作任务的性能指标)上,Opus 4.6比行业下一最佳模型OpenAI GPT-5.2高出144个Elo哟~
(这意味着Claude Opus 4.6在大约70%的情况下在这个评估中获得比GPT-5.2更高的分数,50%的情况下意味着分数相当)

此外,Opus 4.6在编程领域的表现依旧独领风骚,在Agent编程评估Terminal-Bench 2.0中取得了最高分,并在“人类最后考试”中领先所有其他前沿模型。

好消息是加量不加价,Opus 4.6的定价保持原有标准:每百万token输入/输出,价格是5美元/25美元。
带着1M上下文和自适应思考杀回巅峰
Opus 4.6最直观的进步就是引入了1M Token超大上下文窗口,这是Claude首次在Opus级别模型中实现这一长度的上下文支持。

这一改进极大提升了模型在处理长文本时的“上下文衰减”问题。在MRCR v2 8-needle 1M基准测试中,Opus 4.6得分76%,而Claude Sonnet 4.5仅为18.5%。
同时,Opus 4.6还引入了自适应思考(Adaptive Thinking)功能,能够自主判断何时需要深度推理。

编码、知识工作、搜索、推理等核心场景,全面领先
官方数据显示,Opus 4.6在编码、知识工作、搜索和推理等核心场景中均有显著突破。

首先是编程能力。
Opus 4.6在Terminal-Bench 2.0中取得了最高分,能更周密地进行任务规划,代码审查与调试精度显著提升。

其次,Opus 4.6在办公领域的表现同样令人瞩目。
-
能在Excel中处理凌乱的非结构化数据,自行推断合理的表格结构;
-
能记住公司的PPT模板,生成符合企业风格的演示文稿。

第三,推理能力上的进步。
在跨领域复杂推理测试中,Opus 4.6表现出色,在法律、金融等领域均取得优异成绩。

更多饭碗没了
16个Agent两周写完C编译器,运行毁灭战士
Opus 4.6的核心能力升级之一是Agent Teams,多个Claude实例并行协作,无需人类实时监督。
Anthropic研究员Nicholas Carlini用它完成了压力测试:让16个Agent从零开始用Rust编写一个能编译Linux内核的C编译器。
500个零日漏洞,开箱即挖
Opus 4.6在网络安全领域的表现也令人惊叹,在测试中发现了超过500个此前未知的高危零日漏洞。

One More Thing
官网显示,Anthropic现在已经是“用Claude构建Claude”,自家工程师每天都在使用Claude Code编写代码。

本文来源:
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯