谷歌将举办国际象棋锦标赛:顶级AI模型展开实时对决

安迪下木4 小时前
摘要
谷歌旨在使用贝叶斯技能评级系统测试 ChatGPT、Gemini、Claude 和其他 AI 模型的推理能力 。
币币情报道:

谷歌宣布将于本周二启动一场国际象棋锦标赛,该赛事旨在让领先的人工智能模型相互竞争,以直接测试其机器推理能力。

此前,埃隆·马斯克曾表示,他的聊天机器人Grok展示了“出色的推理”能力。而谷歌的这场赛事则将进一步揭示这些顶级AI模型在实际场景中的表现。

作为新Kaggle游戏竞技场的一部分,这一赛事将在实时竞争环境中测试通用人工智能代理的能力。Kaggle游戏竞技场是一个专为评估AI战略和决策能力设计的平台。

首届锦标赛将围绕每日象棋比赛展开,参与竞争的六大顶尖语言模型包括ChatGPT、Gemini、Claude、Grok、Deepseek和Kimi。谷歌表示,与传统的基准测试不同,此次比赛通过观察模型在压力下的思考、适应和恢复能力,全面展示AI的战略水平。

谷歌还指出:“我们希望这次比赛能凸显出其他基准测试未能发现的推理能力差异。”该公司曾在过去借助其他游戏基准(如雅达利、AlphaGo和AlphaStar)来测试AI推理能力。

参赛模型的表现将通过一个定期更新的贝叶斯技能评级系统进行排名,从而实现严格的长期评估。贝叶斯系统利用概率方法,根据与其他竞争对手的表现更新玩家的技能评级。

首场比赛的对战组合包括OpenAI的o4 mini对阵DeepSeek-R1、Gemini 2.5 Pro对阵Claude Opus 4、Moonshot AI的Kimi K2 Instruct对阵OpenAI的o3,以及Grok 4对阵Gemini 2.5 Flash。

国际象棋长期以来被认为是证明人工智能推理能力的重要领域。1997年,IBM的“深蓝”击败俄罗斯国际象棋大师加里·卡斯帕罗夫,成为历史性的一刻。如今,谷歌延续了这一传统,并将其扩展至语言模型领域。

比赛将在YouTube上进行直播,采用四局两胜制,获胜者通过单败淘汰赛晋级。最终进入决赛的两个模型将在金牌争夺赛中展开终极对决。

谷歌在X(前Twitter)上写道:“游戏非常适合用于人工智能评估,因为它们可以帮助我们了解模型如何处理复杂的推理任务。许多游戏是现实世界技能的反映,可以测试模型在战略规划、适应性和记忆等方面的能力。”

观众将能够看到每个模型每一步动作背后的逻辑推导过程。谷歌强调,这种透明度对于判断模型是否真正具备推理能力至关重要,而不是简单地模仿训练数据。

然而,在Kaggle游戏竞技场讨论板上,关于比赛开始后大型语言模型(LLM)的实际表现仍存在疑问。例如,一位用户问道:“如果在所有允许的重新思考次数用尽后,模型仍然建议非法走法,会发生什么?它会立即输掉比赛,跳过这一回合,还是被取消资格?”

另一位用户则提出了更深层次的问题:“这是否意味着我们正在见证真正的推理能力,还是仅仅基于模式的猜测?”

谷歌计划在未来将Kaggle游戏竞技场扩展到国际象棋以外的更多领域。目前,本次锦标赛将作为一次公开压力测试,检验当今最先进的AI模型在实时策略决策中的表现。

谷歌DeepMind联合创始人兼首席执行官Demis Hassabis表示:“游戏一直是人工智能研究的有益试验场,包括我们在AlphaGo和AlphaZero上的工作。”他在X上写道,“我们期待这个基准推动技术进步,并随着更多游戏和挑战加入竞技场,见证快速的发展!”

截至目前,谷歌尚未回应解密的评论请求。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场