Google Gemini 2.5 Pro在AI智能与编码能力评测中表现卓越

谷燕西2025-05-09

摘要

科技巨头“思考模型”在复杂的基准上优于竞争对手，现在可以免费提供所有用户。

币币情报道：

近日，Google推出的Gemini 2.5 Pro在编码领域取得显著成就，成功登顶WebDev竞技场排行榜首位。这一平台类似于LLM竞技场，但专注于评估AI模型在编码任务中的表现。此成就是在Google努力将其旗舰AI模型定位为编码和推理任务领导者的背景下实现的。

今年早些时候发布的Gemini 2.5 Pro在多个类别中表现突出，包括编码、风格控制和创意写作。该模型拥有庞大的上下文窗口，容量高达一百万个代币，并即将扩展至两百万。这使其能够轻松处理大规模代码库和复杂项目，而诸如ChatGPT和Claude 3.7十四行诗等模型仅能支持最多128K代币。

此外，Gemini 2.5 Pro在所有AI模型中展现出最高的“智商”水平。Trackingai通过标准化测试（如Mensa挪威的口头问题）来衡量AI模型的推理能力，Gemini 2.5 Pro在这些测试中表现出色，甚至应对未公开的定制问题也游刃有余。

离线测试显示，Gemini 2.5 Pro的智商得分为115，被评为“明亮的头脑”，远高于普通人类的平均得分范围（85至114）。然而，AI系统的“智商”概念需要理性看待，其更应被视为对推理基准的表现隐喻。

在其他专门设计的AI基准测试中，Gemini 2.5 Pro同样表现出色。例如，在AIME 2025数学测试中得分为86.7％，在GPQA科学评估中得分为84.0％。而在人类最后一次考试（HLE）中，这一旨在避免测试饱和问题的新基准上，Gemini 2.5 Pro以18.8％的得分击败了OpenAI O3 Mini（14％）和Claude 3.7 Sonnet（8.9％），显示出显著的性能提升。

目前，Gemini 2.5 Pro的新版本已免费开放（带速率限制）。Google将其描述为“2.5 Pro的实验版”，属于其“思维模型”系列，旨在通过推理而非简单生成文本提供更高质量的服务。

尽管未能在所有基准测试中夺冠，Gemini 2.5 Pro仍凭借其多功能性引起了开发者的广泛关注。通过单一提示，该模型即可构建交互式Web应用程序、无尽跑步游戏以及视觉模拟，而无需详细说明。

我们对其进行了测试，要求修复损坏的HTML5代码。结果显示，它生成了近1000行代码，在质量和指令理解方面超越了之前的领导者Claude 3.7十四行诗。

对于开发者而言，Gemini 2.5 Pro的输入价格为每百万代币150美元，相较于竞争对手更具性价比，同时依然提供令人印象深刻的功能。

该AI模型在其高级计划中最多可处理30,000行代码，适用于企业级项目。其多模态能力——结合文本、代码、声音、图像和视频——为编码相关任务提供了无可比拟的灵活性。

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场