OpenAI 升级 Operator 代理:全新 o3 模型提升性能与安全性

区块链大本营9 小时前
摘要
OpenAI 在之前使用 GPT-4o 的定制版本之后,将 Operator(一种使用网络执行任务的 AI 代理)升级为基于 o3 的模型 。
币币情报道:

OpenAI 近日宣布,将 Operator 的 AI 模型从之前的 GPT-4o 定制版本升级为基于 o3 的模型。o3 是 OpenAI o 系列“推理”模型中的最新成员之一。这一新模型针对计算机使用场景进行了额外的安全数据微调,并包含旨在训练模型决策边界的安全数据集。

此次升级还引入了全新的计算机使用代理 (CUA) 模型,该模型基于 OpenAI 的 o3 版本构建。与之前的版本相比,新模型在浏览器交互时表现出更强的持久性和准确性,从而显著提高了整体任务成功率。此外,它还能生成更结构化、更清晰、更全面的响应。

根据 OpenAI 的测试结果,新的 CUA 模型在 OSWorld 和 WebArena 等基准测试中达到了业界领先水平(SOTA),并且在人类偏好评估中也表现出了优于前一版本的相对性能。

OpenAI 将基于 GPT‑4o 的模型替换为基于 o3 的版本

尽管 API 版本仍将基于 GPT-4o,但 OpenAI 表示,o3 Operator 采用了与 GPT-4o 相同的多层安全方法。此外,o3 Operator 还针对计算机使用场景添加了额外的安全数据进行微调,包括旨在教授模型确认和拒绝行为的安全数据集。

OpenAI 发布的一份技术报告显示,o3 Operator 在特定安全评估中的表现优于 GPT-4o Operator 模型。例如,o3 Operator 更少拒绝执行“非法”活动或搜索敏感个人数据的任务,同时对一种被称为“即时注入”的人工智能攻击具有更高的抵抗力。

“o3 Operator 采用与 GPT-4o 版本相同的多层安全方法……虽然 o3 Operator 继承了 o3 的编码功能,但它无法原生访问编码环境或终端。”

OpenAI

OpenAI 还透露,基于 o3 的新模型已通过标准安全评估,Operator 将继续作为研究预览版向全球 ChatGPT Pro 用户开放。不过,升级后的模型仅在 ChatGPT 的 Operator 版本中提供。

Knoop 怀疑运行 OpenAI 的 o3 模型的成本可能比预期更高

上周,负责维护和管理 ARC-AGI 的 Arc Prize 基金会更新了 o3 的近似计算成本。该组织最初估计,其测试的最佳 o3 配置(o3 high)解决单个 ARC-AGI 问题的成本约为 3000 美元。然而,基金会现在认为,实际成本可能比之前的估计高出 10 倍,每个任务的成本可能达到约 3 万美元。

尽管 OpenAI 尚未正式发布 o3 或对其进行定价,但 Arc Prize Foundation 的联合创始人之一 Mike Knoop 认为,o1-pro 模型的定价可以作为一个合理的参考,以更准确地反映 o3 的真实成本。他补充说,在官方定价公布之前,o3 将继续在排行榜上被标记为预览版,以反映不确定性。

据 Arc Prize Foundation 称,考虑到该模型所使用的计算资源量,o3 high 的高价并非不可能。为了解决 ARC-AGI 问题,o3 high 使用的计算量是 o3 low(o3 的最低计算配置)的 172 倍。

有传言称,自 3 月初以来,OpenAI 一直在考虑为企业客户推出价格不菲的计划。据报道,该公司可能会向专门的 AI“代理”(例如软件开发人员代理)收取每月高达 2 万美元的费用。

然而,尽管有人认为,即使是 OpenAI 最昂贵的模型,其成本也远低于典型的人类承包商或员工的收费,但人工智能研究员 Toby Ord 指出,这些模型的效率可能不及人类。例如,o3 high 在 ARC-AGI 的每项任务中都需要尝试 1024 次才能获得最佳成绩。

Cryptopolitan 学院:厌倦了市场波动?了解 DeFi 如何助你建立稳定的被动收入。立即注册

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场