马斯克发布Grok-3:全面超越DeepSeek 展现AI领域新高度
来源:AI范儿
当地时间今日,埃隆·马斯克旗下的xAI团队正式发布了新一代大语言模型Grok-3及其精简版Grok-3 mini。根据最新基准测试数据,Grok-3在多项关键指标上均展现出对DeepSeek系列模型的显著优势,进一步巩固了其在AI领域的领先地位。
在数学能力测试(AIME'24)中,Grok-3以52分的成绩大幅领先DeepSeek-V3的39分;科学知识评估(GPQA)方面,Grok-3取得75分,远超DeepSeek-V3的65分;编程能力测试(LCB Oct-Feb)中,Grok-3同样表现优异,以57分超过DeepSeek-V3的36分。
最新公布的AIME 2025性能测试结果显示,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得了93分的高分,其精简版Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果再次证明了Grok-3在复杂数学推理和计算效率方面的卓越表现。
特别值得注意的是,在其他推理能力测试中,DeepSeek近期发布的DeepSeek-R1依然未能赶超Grok-3。具体来看,在数学推理测试中,Grok-3获得93分,DeepSeek-R1为73分;科学推理测试中,Grok-3得分85分,DeepSeek-R1为74分;编程推理测试中,Grok-3达到79分,而DeepSeek-R1为65分。
此外,在LMSYS聊天机器人竞技场评估中,Grok-3以约1400分的成绩脱颖而出,不仅超越了DeepSeek系列,还领先于其他主流大模型,包括GPT-4、Claude等。
综合以上数据可以看出,尽管DeepSeek在过去几个月展现出了强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。尤其是在数学推理和计算效率方面的突出表现,不仅彰显了xAI团队在模型研发上的技术实力,也反映了当前AI领域竞争的激烈程度。
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场