Google Gemini 2.5 Pro在AI智能与编码能力评测中表现卓越

谷燕西20 小时前
摘要
科技巨头“思考模型”在复杂的基准上优于竞争对手,现在可以免费提供所有用户 。
币币情报道:

近日,Google推出的Gemini 2.5 Pro在编码领域取得显著成就,成功登顶WebDev竞技场排行榜首位。这一平台类似于LLM竞技场,但专注于评估AI模型在编码任务中的表现。此成就是在Google努力将其旗舰AI模型定位为编码和推理任务领导者的背景下实现的。

今年早些时候发布的Gemini 2.5 Pro在多个类别中表现突出,包括编码、风格控制和创意写作。该模型拥有庞大的上下文窗口,容量高达一百万个代币,并即将扩展至两百万。这使其能够轻松处理大规模代码库和复杂项目,而诸如ChatGPT和Claude 3.7十四行诗等模型仅能支持最多128K代币。

此外,Gemini 2.5 Pro在所有AI模型中展现出最高的“智商”水平。Trackingai通过标准化测试(如Mensa挪威的口头问题)来衡量AI模型的推理能力,Gemini 2.5 Pro在这些测试中表现出色,甚至应对未公开的定制问题也游刃有余。

离线测试显示,Gemini 2.5 Pro的智商得分为115,被评为“明亮的头脑”,远高于普通人类的平均得分范围(85至114)。然而,AI系统的“智商”概念需要理性看待,其更应被视为对推理基准的表现隐喻。

在其他专门设计的AI基准测试中,Gemini 2.5 Pro同样表现出色。例如,在AIME 2025数学测试中得分为86.7%,在GPQA科学评估中得分为84.0%。而在人类最后一次考试(HLE)中,这一旨在避免测试饱和问题的新基准上,Gemini 2.5 Pro以18.8%的得分击败了OpenAI O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),显示出显著的性能提升。

目前,Gemini 2.5 Pro的新版本已免费开放(带速率限制)。Google将其描述为“2.5 Pro的实验版”,属于其“思维模型”系列,旨在通过推理而非简单生成文本提供更高质量的服务。

尽管未能在所有基准测试中夺冠,Gemini 2.5 Pro仍凭借其多功能性引起了开发者的广泛关注。通过单一提示,该模型即可构建交互式Web应用程序、无尽跑步游戏以及视觉模拟,而无需详细说明。

我们对其进行了测试,要求修复损坏的HTML5代码。结果显示,它生成了近1000行代码,在质量和指令理解方面超越了之前的领导者Claude 3.7十四行诗。

对于开发者而言,Gemini 2.5 Pro的输入价格为每百万代币150美元,相较于竞争对手更具性价比,同时依然提供令人印象深刻的功能。

该AI模型在其高级计划中最多可处理30,000行代码,适用于企业级项目。其多模态能力——结合文本、代码、声音图像视频——为编码相关任务提供了无可比拟的灵活性。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场