币币情报道:
Sam Altman 的 OpenAI o3 模型(该模型已于上周晚些时候随着 GPT-5 的发布而被弃用)在周四的四场比赛中击败了 Elon Musk 的 Grok 4,赢得了谷歌的 Kaggle游戏竞技场人工智能象棋展览。
你可能会认为这是一场超级复杂的盛会,高科技巨头们正在对他们的推理进行终极考验,但作为开胃菜,让我们假设世界冠军马格努斯·卡尔森比较的两个机器人都说“这是一个有天赋的孩子,但不知道棋子如何移动。”
AI 国际象棋锦标赛对阵表截图。
这场为期三天的比赛于 8 月 5 日至 7 日举行,要求通用聊天机器人(没错,就是那些帮你写电子邮件、号称智能水平接近人类的聊天机器人)在未经任何专门训练的情况下下棋。没有国际象棋引擎,不用查棋谱,它们只是从互联网上随意获取一些国际象棋知识。
结果和你期望的一样优雅,就像你强迫语言模型玩棋盘游戏一样。决赛的联合评论员卡尔森估计,这两个人工智能的水平都与刚学会规则的普通玩家相当——大约800 ELO。作为背景,他可以说是有史以来最优秀的国际象棋选手,ELO为2839 分这些人工智能就像是从损坏的 PDF 中学会下棋一样。
“他们的棋艺时好时坏,时好时坏,”卡尔森在赛后直播中说道。在看到格罗克棋手将国王逼入险境后,他一度开玩笑说,格罗克棋手可能会以为他们在玩“山丘之王”而不是国际象棋。
实际比赛就像是一堂大师课,教你如何不下棋,即使对那些不懂棋的人来说也是如此。在第一场比赛中,Grok 几乎免费送出了一枚重要棋子,然后在已经落后的情况下又交换了更多棋子,让局面雪上加霜。
第二局比赛更加诡异。格罗克试图使用棋手们所谓的“毒兵”——一种危险却合法的策略,即吃掉一个看似自由但实际上并非自由的敌方兵。然而,格罗克吃的兵完全错了,那是一个明显被防守的兵。它的后(棋盘上最强大的棋子)立刻被困住并吃掉。
到了第三局,Grok 似乎已经建立了一个稳固的阵型——位置控制良好,没有明显的危险,基本上是一个能帮你赢球的阵型。然而到了中局,它却几乎直接把球丢给了对手。它接连丢掉了一个又一个的棋子。
这其实挺奇怪的,毕竟在对阵o3的比赛之前,Grok可是实力不俗的有力竞争者,展现出了不俗的潜力——就连国际象棋大师中村光都对它赞不绝口。“Grok无疑是目前为止最好的,客观来说,绝对是最好的。”
第四局(也是最后一局)比赛才真正带来了悬念。OpenAI 的 o3 在比赛初期犯了一个大错误,这在任何一场合理的比赛中都是一个很大的风险。直播这场比赛的 Nakamura 表示,尽管 o3 处于劣势,但“仍有一些机会”。
他是对的——o3 奋力夺回了皇后,慢慢地取得了胜利,而 Grok 的残局却像湿纸板一样崩溃了。
中村在直播中说道:“Grok 在这些比赛中犯了很多错误,但 OpenAI 没有。” 这与本周早些时候的情况大相径庭。
对埃隆·马斯克来说,时机真是糟糕透了。在 Grok 前几轮表现强劲之后,他在 X 上发帖称,他的 AI 的国际象棋能力只是“副作用”,而 xAI“几乎没有在国际象棋上投入任何精力”。事实证明,这番话是轻描淡写的。
在这场“正式”国际象棋锦标赛之前,国际大师莱维·罗兹曼举办了自己的锦标赛今年早些时候,他用一些不太先进的模型进行了比赛。他遵循了聊天机器人推荐的所有走法,结果整个局面变得一团糟,充斥着非法走法、棋子召唤和错误计算。Stockfish,一个专为国际象棋打造的人工智能,最终赢得了与 ChatGPT 的比赛。Altman 的人工智能在半决赛中对阵 Musk 的人工智能,Grok 输了。所以 Sam 赢了 2-0。
然而,这次锦标赛有所不同。每个机器人都有四次合法走棋的机会——如果四次都失败了,就自动输了。这并非空穴来风。在早期回合中,AI 会尝试将棋子传送到棋盘各处,让死棋复活,以及将棋子横向移动,就像在玩他们自己发明的某种梦幻版国际象棋一样。
他们被取消了资格。
谷歌的 Gemini 击败了另一个 OpenAI 模型,夺得季军,为赛事组织者挽回了一些尊严。那场铜牌争夺战的平局尤其荒诞,两个 AI 在不同时间点都占据绝对优势,却不知该如何收场。
卡尔森指出,人工智能更擅长计算被吃的棋子,而不是真正将死对手——它们懂得物质优势,却不懂如何取胜。这就好比擅长收集食材,却不会做饭一样。
科技高管们声称,这些人工智能模型正在逼近人类智能,威胁着白领工作,并彻底改变我们的工作方式。然而,它们却无法在这场存在了1500年的棋盘游戏中不作弊或不忘规则。
因此可以肯定地说,我们是安全的,目前人工智能不会控制人类。