深度解析:关于DeepSeek的五大争议与真相

华雨欢2025-02-08

来源:腾讯科技

自春节以来,DeepSeek的热度持续攀升,但伴随而来的还有诸多误解与争议。有人称其为“吊打OpenAI的国货之光”,也有人认为它不过是“抄袭国外大模型的小聪明”。本文将针对围绕DeepSeek的五大核心争议进行深入解读。

一、过度神话与无脑贬低:DeepSeek是否属于底层创新?

互联网从业者caoz指出,DeepSeek对行业发展的促进价值值得肯定,但将其称为颠覆性革命还为时尚早。一些专业测评显示,DeepSeek在某些关键问题上的表现尚未超越ChatGPT。

不要过度神话,也不要无脑贬低。

目前,关于DeepSeek的技术成就存在两种极端观点:一种认为它是“颠覆性革命”,另一种则认为它只是模仿国外模型,甚至有传言称其通过蒸馏OpenAI模型取得进展。

微软曾提到DeepSeek蒸馏了ChatGPT的结果,这一说法被部分人借题发挥,贬低其价值。然而,这两种观点都过于片面。

更准确地说,DeepSeek的突破是一次面向产业痛点的工程范式升级,为AI推理开辟了“少即是多”的新路径。

DeepSeek主要在以下三个层面实现了创新:

  • 通过训练架构瘦身(如GRPO算法省去传统强化学习中的Critic模型),简化复杂算法为可落地执行的工程方案;
  • 采用简评估标准(如代码生成场景中用编译结果和单元测试通过率替代人工评分),破解AI训练中的主观偏差难题;
  • 在数据策略上找到精妙平衡点,结合纯算法自主进化的Zero模式与仅需数千条人工标注数据的R1模式,既保留模型自主进化能力又保障人类可解释性。

这些改进并未突破深度学习的理论边界,而是通过系统级优化解决了产业痛点。DeepSeek完全开源并详细记录了这些创新点。

Stability AI前研究主管Tanishq Mathew Abraham总结了DeepSeek的三大技术亮点:

  1. 多头注意力机制:开发了一种更高效且性能更好的MHA机制变体;
  2. 可验证奖励的GRPO:证明了一种简单RL流程可达到类似GPT-4的效果,并开发了高效性能的GRPO算法;
  3. DualPipe:设计了一种效率和速度显著提高的多GPU训练方法。

关于蒸馏ChatGPT的说法,传统意义上的“蒸馏”指的是对token概率的训练,而ChatGPT并未开放此类数据,因此基本不可能实现“蒸馏”。此外,DeepSeek可能利用了一些蒸馏语料信息,但这对其整体质量影响有限。

最终,所有大模型都在迭代前进,你中有我,我中有你。

二、DeepSeek的成本仅为550万美元?

550万美元成本这一结论既正确也错误,因为它未明确具体指代什么成本。

Tanishq Mathew Abraham客观估算了DeepSeek的成本:

首先,这个数字最早出现在DeepSeek-V3论文中,而DeepSeek-R1是在V3基础上进行了额外的强化学习训练,这部分额外成本约为几十万美元。

图片

图:DeepSeek-V3论文中关于成本的论述

DeepSeek-V3论文中声称的550万美元成本基于GPU成本、数据集大小和模型规模的多项分析得出。值得注意的是,虽然DeepSeek V3/R1拥有6710亿参数,但它采用了专家混合系统架构,实际训练时仅使用约370亿参数。

此外,DeepSeek报告的成本是基于当前市场价格估算的,实际购买GPU集群的成本可能更低。

然而,这仅仅是最终训练运行的成本,不包括小规模实验、消融研究及研究人员薪资等其他成本。

Semianalysis给出的AI TCO分析显示,按四年周期计算,60,000块GPU的总成本为25.73亿美元。

图片

总结来说,如果将所有设备、服务器、运营等成本全部算入,远超550万美元,但净算力成本已十分高效。

三、巨额资本支出投资算力只是浪费?

这是一个广为流传但片面的观点。DeepSeek确实在训练效率上展现了优势,但这并不意味着更多计算资源是一件坏事。

从Scaling Laws角度来看,更多计算能力始终意味着更好性能。尽管DeepSeek找到了更高效的路径,规模定律依然有效。

四、DeepSeek是否采用了PTX绕开了对NVIDIA CUDA的依赖?

DeepSeek论文提到其采用PTX编程以优化通信互联效率。网络上对此有两种解读:一是为了“绕开CUDA垄断”,二是因芯片受限而不得已为之。

上海交通大学副教授戴国浩认为这两种说法都不准确。PTX指令位于CUDA驱动层内部,仍然依赖于CUDA生态系统,因此无法绕开CUDA。

图片

PPT系上海交通大学副教授戴国浩制作

DeepSeek的优化方案并非不得已为之,而是主动优化,无论使用H800还是H100芯片,都能提升通信互联效率。

五、DeepSeek会被国外禁用吗?

DeepSeek爆火后,英伟达、微软、英特尔、AMD、AWS五大云巨头均上架或集成了DeepSeek,国内华为、腾讯、百度、阿里、火山引擎也支持部署。

然而,网络上存在两种情绪化言论:一种认为国外云巨头上架DeepSeek是“被打服了”;另一种则担心因地缘政治原因,国外会陆续禁止DeepSeek。

caoz对此给出了清晰解读:我们所说的DeepSeek实际上包括两个产品——一个是风靡世界的App,另一个是GitHub上的开源代码库。前者是后者的Demo,而后者可能成长为蓬勃的开源生态。

被限制使用的将是DeepSeek App,而巨头接入和提供的则是DeepSeek开源软件的部署。

DeepSeek以“中国大模型”的姿态闯入全球AI竞技场,采用MIT License开源协议,允许商用。对它的讨论已超越技术创新范畴,但技术进步从来不是非黑即白的对错之争。

与其陷入过度吹捧或全盘否定,不如让时间和市场检验其真实价值。毕竟,在AI这场马拉松中,真正的竞争才刚刚开始。

参考资料:

《关于deepseek的一些普遍误读》 作者:caoz

https://mp.weixin.qq.com/s/Uc4mo5U9CxVuZ0AaaNNi5g

《DeepSeek最强专业拆解来了,清交复教授超硬核解读》 作者:ZeR0

https://mp.weixin.qq.com/s/LsMOIgQinPZBnsga0imcvA 

Debunking DeepSeek Delusions 作者:Stability AI 前研究主管 Tanishq Mathew Abraham

https://www.tanishq.ai/blog/posts/deepseek-delusions.html

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场