AI预测市场表现:聪明钱的对手还是盟友?

安迪下木2天前
AI 预测实录:想靠 AI 在预测市场赚钱?但它可能连题目都没看清

原创 | Odaily 星球日报(@OdailyChina

作者|南枳(@Assassin_Malvo

AI预测实录:想靠AI在预测市场赚钱?但它可能连题目都没看清

随着多数赛道逐渐证伪,预测市场成为 Crypto 圈内少数仍在正向增长的领域之一。11 月 20 日,作者南枳开始尝试用寻找 Meme 聪明钱的思路探索预测市场的盈利潜力,并在初期取得了一定成果

进入 12 月,Gemini 3 Pro 上线之际,南枳萌生了利用 AI 对预测市场进行分析和预测的想法,并设计了一场人类对阵 AI 的预测实验,以验证哪一方更为精准。

预测市场通常被认为通过“让有见解的人使用真金白银下注”,推动市场趋向“真相”。然而,也有人认为 Crypto+预测市场让“内幕人士”能够安全地利用信息差获利,从而将市场引向“内幕结果”。这实际上是“群体智慧”与“真理掌握在少数人手中”两种观点的碰撞。而 AI 预测更偏向于“群体智慧”,因此需要依赖大量可用的知识和见解。

基于此,实验初步选用了 Gemini 和 Grok 两款模型,因为它们分别依托 Google 和 X 平台,能够直接获取海量知识与见解。近期,南枳还新增了“豆包+抖音知识”的组合,但由于预测题目尚不多,本篇暂不涉及。

基本规则

  • AI 版本:Gemini 2.5 pro(自带 Google 搜索)、Grok 4 Fast(通过 OpenRouter 调用,启用原生搜索功能)
  • 题目选择:由人类选择下注题目,AI 跟随预测,但排除了 Crypto 板块
  • 输入内容:官方题目(title)、官方描述(Description)、可选答案(仅 Yes 和 No)

注:Polymarket 的题目分为大类 Event 和子类 Market,大类 Event 如“谁是下一任美联储主席”、“Strategy 什么时候会卖出比特币”等,Event 下又包含多个子类市场,例如“哈赛特是否会成为下一任美联储主席”、“Strategy 在 2026 年 3 月 31 日前会卖出比特币”等具体选项。为与人类预测对齐,实验选择了 Market 作为 AI 判断的题目,不提供其他选项,例如仅判断“哈赛特是否会成为下一任美联储主席”,而非从多个候选人中选出最有可能的一个。

  • 提示词设计:
  • 要求 AI 搜索最新新闻、官方公告、专家分析报告
  • 要求剔除、禁止使用预测市场数据
  • 基于“证据”,运用逻辑推理进行判断
  • 只允许输出 Yes 和 No,并用一段话阐述推理逻辑

当前结果

截至目前,已结算 21 个预测题目。结果显示,Grok 的胜率最高,达到 75%,人类为 66.7%,而 Gemini 最低,仅为 52.4%。更多详细结果可查看相关网站

AI预测实录:想靠AI在预测市场赚钱?但它可能连题目都没看清

AI 犯了什么错?

Gemini 偶尔误判当前时间

在题目“Will Trump's approval rating hit 35% in 2025?”中,Gemini 错误地表示当前为 2025 年上半年,因此给出了模棱两可的答案。

然而,当作者通过程序直接要求 Gemini 输出当前时间时,它能够给出正确答案。目前尚不清楚为何会出现这种时间认知错误。

AI 思考深度不足

在题目“Gemini 3.0 Flash released by December 16?”中,Grok 仅基于“官方最近只提及 Gemini 3 Pro 及 2.5 相关版本,极少提及 3 Flash,因此证据不足不能判断”,仅考虑了当下信息。

而 Gemini 指出“Gemini 1.0 于 2023 年 12 月发布,而 Gemini 2.0 Flash 的实验版于 2024 年 12 月推出。延续这一模式,在 2025 年底推出 3.0 版本是合乎逻辑的”,并且发现了“最近(2025 年 12 月 14 日)在网络社区中流传的一个关于‘Gemini 3.0 Flash’的泄露演示,进一步增强了其即将公开发布的可能性”。

虽然从结论来看,Gemini 的答案反而是错误的,但在本题目中可以明显看出二者所依赖的资料广度存在显著差距。

AI 基于常识而非基于证据+逻辑进行推断

在题目“Trump approval Up or Down this week?”中,Gemini 表示“对一年多以后的单周民意调查支持率进行预测具有高度的不确定性”,再次出现“时间误判”。随后,Gemini 认为“在任何一个普通星期内,出现导致支持率轻微下降的事件的概率,可能略高于出现能显著提升支持率的正面事件的概率”,因此得出支持率下降的可能性更大的结论,显然仅基于主观常识假设。

相比之下,Grok 基于“政府关门、经济担忧、移民政策争议以及对罗伯·莱纳去世评论引发的负面反弹影响”等新闻报道及民调数据,符合设计预期。

结算条件判断有误

在题目“Will Trump release the Epstein files by December 20?”中,Gemini 和 Grok 均已知道“政府将于周五(12 月 19 日)公布‘数十万页’文件”,而结算条件明确指出“政府公开发布任何与爱泼斯坦非法活动相关且在所列日期前未公开的文件,即判断为 Yes”。

然而,Gemini 表示“在 12 月 20 日之前完成‘所有’文件的公布是不可能的”,明显误判了结算所需条件,因此给出了错误答案。

小结

综上所述,尽管 Grok 的预测胜率已经超越了许多在预测市场上盈利数十万、百万美元的聪明钱,但深入探究其预测逻辑,仍有大量可以优化和改进的空间。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场