OpenAI发布EVMbench：AI在DeFi领域展现强大攻击能力或将颠覆行业生态

标准共识2026-02-20

长期以来，加密圈与AI的结合常被认为是单向的热情。然而，在近期加密市场低迷之际，OpenAI推出的EVMbench却引发了广泛关注。

EVMbench是什么？

首先，EVM指的是以太坊虚拟机（Ethereum Virtual Machine），它是以太坊及其兼容链运行智能合约的核心环境。而此次OpenAI发布的EVMbench并非一条新链或以太坊升级，而是一款专为AI设计的测试工具。

这款工具的背后开发者阵容强大，除了OpenAI外，还包括知名加密基金Paradigm以及Web3安全审计公司OtterSec。目前，EVMbench以论文形式发布，本文将对其进行详细解读。

对于熟悉区块链的朋友来说，智能合约领域犹如“黑暗森林”，黑客不断扫描潜在漏洞，一旦被利用便可能导致巨额损失。因此，许多项目方选择支付高额费用进行代码安全审计。

然而，OpenAI认为，区块链环境非常适合用作AI的评测场景，因为所有数据和信息都可以在链上查询和验证。

为此，团队从真实的DeFi环境中选取了数百个项目作为测试样本。这些项目平均包含一两千行代码，并涉及多个智能合约。

EVMbench（Bench意为审判席）的任务是让主流AI模型（如GPT、Gemini、Claude）完成以下三项任务：

通过评分来评估各模型的表现。

最终研究结果显示，AI在发现和修复漏洞方面的表现较为一般，但在利用漏洞攻击合约方面却表现出色。

在已知合约问题的情况下，AI仅能发现或修复不到一半的漏洞，表现仅相当于一名普通水平的“代码审计师”。

然而，当AI扮演“黑客”角色时，其成功攻击并窃取资金的概率高达70%以上！

此外，无论是担任“链上黑客”还是“审计员”，只要提供足够的算力（即增加AI输出token数量），AI的表现都会显著提升。

那么，究竟哪个AI模型表现最出色呢？

从图表中可以看出，在检测漏洞方面，Claude Opus 4.6表现最佳，它发现的漏洞按真实审计奖励计算可获得约3.8万美元。

而在修复漏洞和攻击合约方面，OpenAI自家的GPT 5.3-Codex表现最为突出（毕竟是自家论文，不能输呀）。

更令人惊讶的是，如果AI工程师给予一定提示，AI在审计和攻击方面的成功率均可达到90%以上！

简单来说，未来的链上DeFi领域或许真的会成为AI的天下。无论是代码审计师还是黑客，都可能面临失业的风险……

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场