深度解析:关于DeepSeek的五大争议与真相
来源:腾讯科技
自春节以来,DeepSeek的热度持续攀升,但伴随而来的还有诸多误解与争议。有人称其为“吊打OpenAI的国货之光”,也有人认为它不过是“抄袭国外大模型的小聪明”。本文将针对围绕DeepSeek的五大核心争议进行深入解读。
一、过度神话与无脑贬低:DeepSeek是否属于底层创新?
互联网从业者caoz指出,DeepSeek对行业发展的促进价值值得肯定,但将其称为颠覆性革命还为时尚早。一些专业测评显示,DeepSeek在某些关键问题上的表现尚未超越ChatGPT。
不要过度神话,也不要无脑贬低。
目前,关于DeepSeek的技术成就存在两种极端观点:一种认为它是“颠覆性革命”,另一种则认为它只是模仿国外模型,甚至有传言称其通过蒸馏OpenAI模型取得进展。
微软曾提到DeepSeek蒸馏了ChatGPT的结果,这一说法被部分人借题发挥,贬低其价值。然而,这两种观点都过于片面。
更准确地说,DeepSeek的突破是一次面向产业痛点的工程范式升级,为AI推理开辟了“少即是多”的新路径。
DeepSeek主要在以下三个层面实现了创新:
- 通过训练架构瘦身(如GRPO算法省去传统强化学习中的Critic模型),简化复杂算法为可落地执行的工程方案;
- 采用简评估标准(如代码生成场景中用编译结果和单元测试通过率替代人工评分),破解AI训练中的主观偏差难题;
- 在数据策略上找到精妙平衡点,结合纯算法自主进化的Zero模式与仅需数千条人工标注数据的R1模式,既保留模型自主进化能力又保障人类可解释性。
这些改进并未突破深度学习的理论边界,而是通过系统级优化解决了产业痛点。DeepSeek完全开源并详细记录了这些创新点。
Stability AI前研究主管Tanishq Mathew Abraham总结了DeepSeek的三大技术亮点:
- 多头注意力机制:开发了一种更高效且性能更好的MHA机制变体;
- 可验证奖励的GRPO:证明了一种简单RL流程可达到类似GPT-4的效果,并开发了高效性能的GRPO算法;
- DualPipe:设计了一种效率和速度显著提高的多GPU训练方法。
关于蒸馏ChatGPT的说法,传统意义上的“蒸馏”指的是对token概率的训练,而ChatGPT并未开放此类数据,因此基本不可能实现“蒸馏”。此外,DeepSeek可能利用了一些蒸馏语料信息,但这对其整体质量影响有限。
最终,所有大模型都在迭代前进,你中有我,我中有你。
二、DeepSeek的成本仅为550万美元?
550万美元成本这一结论既正确也错误,因为它未明确具体指代什么成本。
Tanishq Mathew Abraham客观估算了DeepSeek的成本:
首先,这个数字最早出现在DeepSeek-V3论文中,而DeepSeek-R1是在V3基础上进行了额外的强化学习训练,这部分额外成本约为几十万美元。
图:DeepSeek-V3论文中关于成本的论述
DeepSeek-V3论文中声称的550万美元成本基于GPU成本、数据集大小和模型规模的多项分析得出。值得注意的是,虽然DeepSeek V3/R1拥有6710亿参数,但它采用了专家混合系统架构,实际训练时仅使用约370亿参数。
此外,DeepSeek报告的成本是基于当前市场价格估算的,实际购买GPU集群的成本可能更低。
然而,这仅仅是最终训练运行的成本,不包括小规模实验、消融研究及研究人员薪资等其他成本。
Semianalysis给出的AI TCO分析显示,按四年周期计算,60,000块GPU的总成本为25.73亿美元。
总结来说,如果将所有设备、服务器、运营等成本全部算入,远超550万美元,但净算力成本已十分高效。
三、巨额资本支出投资算力只是浪费?
这是一个广为流传但片面的观点。DeepSeek确实在训练效率上展现了优势,但这并不意味着更多计算资源是一件坏事。
从Scaling Laws角度来看,更多计算能力始终意味着更好性能。尽管DeepSeek找到了更高效的路径,规模定律依然有效。
四、DeepSeek是否采用了PTX绕开了对NVIDIA CUDA的依赖?
DeepSeek论文提到其采用PTX编程以优化通信互联效率。网络上对此有两种解读:一是为了“绕开CUDA垄断”,二是因芯片受限而不得已为之。
上海交通大学副教授戴国浩认为这两种说法都不准确。PTX指令位于CUDA驱动层内部,仍然依赖于CUDA生态系统,因此无法绕开CUDA。
PPT系上海交通大学副教授戴国浩制作
DeepSeek的优化方案并非不得已为之,而是主动优化,无论使用H800还是H100芯片,都能提升通信互联效率。
五、DeepSeek会被国外禁用吗?
DeepSeek爆火后,英伟达、微软、英特尔、AMD、AWS五大云巨头均上架或集成了DeepSeek,国内华为、腾讯、百度、阿里、火山引擎也支持部署。
然而,网络上存在两种情绪化言论:一种认为国外云巨头上架DeepSeek是“被打服了”;另一种则担心因地缘政治原因,国外会陆续禁止DeepSeek。
caoz对此给出了清晰解读:我们所说的DeepSeek实际上包括两个产品——一个是风靡世界的App,另一个是GitHub上的开源代码库。前者是后者的Demo,而后者可能成长为蓬勃的开源生态。
被限制使用的将是DeepSeek App,而巨头接入和提供的则是DeepSeek开源软件的部署。
DeepSeek以“中国大模型”的姿态闯入全球AI竞技场,采用MIT License开源协议,允许商用。对它的讨论已超越技术创新范畴,但技术进步从来不是非黑即白的对错之争。
与其陷入过度吹捧或全盘否定,不如让时间和市场检验其真实价值。毕竟,在AI这场马拉松中,真正的竞争才刚刚开始。
参考资料:
《关于deepseek的一些普遍误读》 作者:caoz
https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g
《DeepSeek最强专业拆解来了,清交复教授超硬核解读》 作者:ZeR0
https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA
Debunking DeepSeek Delusions 作者:Stability AI 前研究主管 Tanishq Mathew Abraham
https://www.tanishq.ai/blog/posts/deepseek-delusions.html
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场