美光科技:从周期股到基建股的蜕变之路
2012年,全球最大的DRAM内存制造商尔必达破产。这家曾经承载日本半导体工业骄傲的企业,在NEC、日立、三菱的技术积累和政府注资支持下,依然未能撑住。负债4300亿日元申请破产保护后,被美国公司美光科技以2000亿日元收购,彻底消失在历史长河中。
英特尔退出了DRAM市场,德州仪器退出了,摩托罗拉也退出了。日本整个半导体内存产业从鼎盛到崩塌用了不到二十年。韩国企业接过了接力棒,三星和SK海力士用政府补贴和激进的价格战横扫市场,把所有竞争者逼到墙角。
而美光撑下来了,成为今天美国本土唯一一家能大规模生产先进存储芯片的公司。
这家总部位于爱达荷州博伊西的公司,活在英伟达和台积电的阴影之外。不设计GPU,不制造逻辑芯片。但当AI将全世界对算力的渴望推到极限时,一个被忽视了几十年的物理瓶颈突然变得无法回避——计算单元等待数据的时间,比计算本身更长。
这个问题没有软件解,只有硬件解。而那个硬件,恰好是美光做了四十年的东西。
一、AI计算的物理与系统限制
再谈内存墙
当前冯·诺依曼架构下,GPU或TPU计算单元与主存储器在物理电路层面是相互独立的。计算单元内部包含小容量的SRAM(静态随机存取存储器)作为片上缓存,模型权重与输入数据主要存储在片外的DRAM(动态随机存取存储器)。数据必须通过中介层等物理结构,以电信号的形式在两者之间传输。
以一个700亿参数的大语言模型为例,仅权重数据本身,在FP16精度下就需要占用约140GB的物理内存。当前主流高端AI计算卡的显存容量在80GB到192GB之间,稍大一点的模型就必须切分到多张卡上运行。
过去十年,芯片的算力指数级提升,但内存带宽增长受制于物理引脚数量、信号频率和散热上限,增速远远落后于算力。当计算速度超过内存供给速度,计算单元被迫进入等待状态,昂贵的硬件利用率随之大幅下滑。
训练与推理
训练与推理是AI两个阶段。训练是完善大模型准确度,在后台进行;推理是用户使用时生成结果的过程,在前台进行。
训练的特点是大批量并行处理。同一批数据在计算核心的缓存中反复使用,算术强度高,系统主要受限于计算速度而非内存。这是计算密集型场景,英伟达的算力优势在这里得到充分发挥。
推理阶段则是另一回事。大语言模型生成文本依赖自回归机制。每次只输出一个Token,再将其作为下一步的输入。为了不在每次生成时重新计算之前的注意力分数,系统会在显存中维护一块KV Cache,缓存历史序列的键值张量。
在4096的上下文长度下,单个用户请求就需要约1.34GB显存。若将两张A100的显存扣除模型权重占用,剩余约20GB可用于KV Cache,最多只能支撑约14个并发请求。
推理阶段,算术强度极低,系统完全受制于内存带宽,属于访存密集型任务。真正决定吞吐量上限的是HBM物理传输速率。
能耗维度上,从片外HBM读取数据的能耗约为10—20 pJ/bit,而执行一次FP16浮点运算仅需约0.1 pJ。移动数据的能耗是计算本身的100到200倍。
在大规模推理场景下,如果访存模式得不到优化,数据中心的电力将大量消耗在总线传输上,而非实际的逻辑运算。这正是美光持续推进HBM技术的物理驱动力。
二、美光核心半导体技术解析
首先,美光科技是什么公司
美光是一家IDM整合元件制造商,从设计、制造到封装全部自己包揽。但美光的晶圆厂只生产一种东西:存储芯片。不做CPU,不做GPU,只做内存和闪存。
产品结构上,美光的收入来源大致可以拆成三块。DRAM占七成以上,NAND占两到三成,NOR闪存占比较小。
DRAM就是我们熟悉的内存条;NAND是固态硬盘的核心介质;NOR则主要藏在汽车电子和工业设备里,负责快速执行启动代码,存在感低但不可替代。
终端市场方面,美光设有四个业务部门
面向数据中心和服务器的计算与网络部门、面向智能手机的移动部门、面向企业存储的固态硬盘部门,以及面向汽车和工业的嵌入式部门。
美光在AI供应链里扮演什么角色
英伟达做GPU,台积电代工,这条链条里美光在哪?简单说,英伟达H100、B200 GPU由台积电制造,美光不参与这个环节。但一块能跑大模型的完整加速卡,单有计算核心是不够的。前文已经解释过,推理阶段的性能瓶颈在于内存带宽,而非算力本身。
因此,英伟达必须在GPU旁边紧密集成高带宽内存HBM。这些HBM由美光(以及SK海力士、三星)生产,再通过台积电的CoWoS先进封装技术,与GPU逻辑芯片固定在同一块硅中介层上,组成完整的AI计算模块。
美光是关键零部件供应商。GPU是大脑,HBM是紧贴大脑的超高速数据通道,两者缺一不可。
这个结构决定了美光的竞争逻辑与英伟达完全不同。英伟达靠架构和生态建立护城河,美光靠的是制程工艺和堆叠封装技术的持续迭代。
HBM每一代的带宽提升
背后是更复杂的TSV硅通孔工艺和更高的堆叠层数,门槛并不低。
DRAM:被藏在算力叙事背后的基础设施
AI算力之前,有一个更基础的问题,数据从哪里来,怎么到达计算核心。这个问题的答案,就是DRAM(动态随机存取存储器)。
从个人电脑说起
DRAM在传统计算机里是主内存,解决速度不匹配问题。硬盘存得多,但读取慢。CPU算得快,但没地方临时放数据。两者之间差了三个数量级的速度。CPU等硬盘,就像高速公路上跟着拖拉机走。
DRAM解决的就是这个问题。用户打开一个程序,操作系统将其代码和数据从硬盘搬入DRAM;CPU随后直接向DRAM发送地址指令,以纳秒级延迟、数十GB/s的带宽完成数据的读取与写回。操作系统的内核、后台进程的状态、正在运行的一切,都实时驻留在这里。
断电即失,这也是"动态"二字的含义、DRAM的电容会自然漏电,需要持续刷新才能维持数据。
从物理结构上看,DRAM的每一个存储单元都是一个晶体管加一个电容1T1C。
进入AI场景,需求性质变了
AI计算核心从CPU变为GPU。DRAM形态也随之演变,不再只是插在主板上的DDR内存条,而是以HBM高带宽内存形式,通过TSV硅通孔技术垂直堆叠多层裸片,与GPU封装在同一块中介层上。
对DRAM的需求,也从满足系统运行变成了突破算力瓶颈。
首先是模型权重的装载
大模型的参数以矩阵形式存储在物理内存中,推理开始前必须全部驻留在靠近计算核心的HBM里。一个700亿参数的模型,FP16格式下权重本身就需要约140GB的存储空间。
其次是KV Cache的动态占用
模型生成文字时,每输出一个词,都要参考之前所有的上下文。为了不每次都重新算一遍,系统会把历史记录缓存在显存里,这就是KV Cache。
上下文越长,缓存越大。两张A100扣掉模型权重,剩下的显存只够同时服务十几个用户。这是一台几万美元的服务器的实际并发上限。
训练场景下消耗更大。训练时不仅要存模型参数,还得保留每一层的中间计算结果,方便反向传播时更新权重。常用的Adam优化器还会给每个参数额外记两份数据。加在一起,训练时占用的显存通常是推理时的三四倍。
这就回到了内存墙问题。GPU计算核心的算力增长远快于内存带宽的增长。推理阶段的算术强度极低,GPU大量时间处于等待数据的空闲状态。
HBM每一代的带宽提升,直接决定了AI推理服务器能支撑的实际吞吐量上限。
这是DRAM在AI时代的核心价值,也是美光持续投入HBM研发的底层逻辑。
三家寡头,美光排第几
全球DRAM市场,三星、SK海力士、美光三家合计占据约95%的份额。但三家强项完全不同。
制程推进:美光跑得最快
在半导体制造中,制程(Process Node / Technology Node)是指集成电路内部微观物理结构的特征尺寸。
当评价美光在制程推进上跑得最快时,是指美光在缩小DRAM芯片内部物理结构、提升单位面积存储密度的工程进度上,领先于三星和SK海力士。
也就是,单片晶圆能切出更多芯片,单比特制造成本下降,毛利率有支撑。
从1-alpha到1-beta再到1-gamma,美光通常是最先宣布量产新一代高密度DRAM的厂商。
三星在14nm以下节点遭遇过良率瓶颈,最近两代交付节奏明显慢了下来。SK海力士的制程推进速度与美光大体相当,两者是同一梯队。
HBM:海力士的主场
制程是美光的优势,但HBM市场目前是SK海力士的主场。
海力士占据HBM市场超过50%的份额,是英伟达最高阶GPU的首发独家供应商。核心技术优势在于MR-MUF封装工艺,多层DRAM裸片堆叠时的散热和良率控制做得最好。
美光是后来者。跳过了HBM3,直接做HBM3E,靠能效优势切入英伟达供应链。但用的是TC-NCF封装,多层堆叠的制造难度更高,整体产能和市场份额与海力士差距明显。
三星则是另一个故事。HBM3和HBM3E阶段,三星的产品因发热和功耗控制问题没能及时通过英伟达的测试,错过了这一轮AI内存红利最集中的时间窗口。目前正在押注HBM4阶段的反超。
能效:美光的差异化切口
美光在HBM市场的份额虽然落后海力士,但差异化角度在于功耗。
公开测试数据显示,美光HBM在提供相同数据带宽的情况下,运行功耗比竞品低20%到30%。这个数字在单张GPU上听起来不大,但放到一个部署数万张GPU的数据中心,直接折算成电费。
当前AI数据中心的电力供应和散热本身已经成为扩张瓶颈,能效指标对采购决策的影响越来越实际。
同样的逻辑延伸到移动端。美光基于1-gamma制程的LPDDR5X,速率达到9.6Gbps,同时整体功耗下降30%。手机里跑本地AI模型,续航是用户能直接感受到的指标。
规模:三星的底牌
美光的总体产能规模垫底。没有三星那样的绝对体量,美光无法靠价格战出牌,只能走技术溢价路线。
这也是为什么美光必须在制程和能效上保持领先,一旦技术优势消失,在价格竞争中没有胜算。
简单总结一下三家的位置。
海力士靠HBM封装工艺吃到了AI内存红利最大的那块;三星靠规模在常规DRAM市场维持统治,但在HBM上掉了链子;美光在制程和能效上领先,产能规模最小,但通过技术溢价和提前锁单,把确定性做进了财务结构里。
NAND与NOR:美光的另外两块拼图
美光还有另外两块业务,NAND闪存和NOR闪存。
全球NAND市场,美光排在第四或第五位,份额长期在10%到15%之间,排在三星、SK海力士、铠侠和西部数据之后。
NOR闪存是个比NAND小得多的细分市场,低端份额被台湾和大陆的旺宏、华邦、兆易创新等厂商占据。美光主动放弃了低容量消费级订单,专注在车规级和工业级高端市场。
NOR的每个存储单元都直接连着位线,是并行结构,支持单字节随机寻址。汽车CPU通电之后,可以直接通过内存总线在NOR芯片里执行启动代码,这就是为什么汽车仪表盘能在毫秒内点亮。
带宽方面,美光主导推进了Octal xSPI接口标准,用8根数据线加DDR技术,把NOR的读取速率拉到400MB/s量级。
现代智能汽车的座舱系统越来越复杂,这个速率是实现快速冷启动的硬性要求。美光车规级NOR通过了ASIL-D最高安全等级认证,芯片底层集成了硬件ECC纠错逻辑,能在极短时间内自动纠正错误。
工业设备和汽车的服役周期往往超过十年,美光凭借自有晶圆厂能够提供长达十几年的持续供货承诺,这是很多依赖代工的竞争对手做不到的。
NAND和NOR两块业务加在一起,构成了美光不依赖HBM的另一条收入来源。
前者靠制程领先和产品结构升级吃数据中心红利,后者靠物理特性不可替代和严苛认证门槛锁定汽车工业客户。
两个逻辑,但都指向同一个方向,避开价格战,在对性能和可靠性要求最高的地方赚溢价。
美光现在值多少钱,贵不贵
截至当前,美光股价约600美元,市盈率21.44倍,市值约6500亿美元。
华尔街主流投行给出的12个月目标价集中在400到675美元之间,均值接近500美元,按这个标准,当前价格是低估的。
为什么是21倍PE?
过去三十年,存储芯片是典型的周期股。
行业好的时候扩产,然后一起过剩、一起降价、一起亏损。市场对这种生意没什么信心,通常只给8到10倍的PE。
现在美光到了21倍,根本原因是HBM改变了收入结构。
以前美光生产标准DDR内存,产出多少、卖什么价,全看市场脸色。现在HBM是按单生产,在投片之前就已经跟英伟达等客户签了不可撤销的长期供货协议,价格和数量都锁死。
2026年的HBM产能据报道已全部售罄。这种模式下,美光的远期收入不再是预测,而是合同。
华尔街的逻辑随之改变。这是一家更接近拥有稳定合同的基础设施供应商,估值乘数自然往上走。
另一个推力是资金结构。美光是美国本土唯一具备大规模先进存储制造能力的公司。在《芯片法案》和供应链本土化的政策背景下,美国机构投资者配置AI硬件主题时,资金大量涌向美光,流动性溢价真实存在。
SK海力士:技术最强,估值最低
SK海力士的PE 12.17,低于美光,尽管HBM市场份额超过50%,是英伟达高阶GPU核心供应商,但是,
一方面,韩国上市公司财阀治理结构复杂,股息支付率和回购率偏低,赚到的钱往往留在集团内部循环,小股东拿不到多少回报。同等盈利水平下,韩国公司的估值乘数系统性低于美国同行。
二是地缘风险。SK海力士有约40%常规DRAM产能在中国无锡工厂。美国对华EUV设备出口禁令意味着这条产线无法升级到先进制程,未来要么承担巨额的产能迁移成本,要么看着这部分资产逐渐失去竞争力。
华尔街在估值时把这笔潜在成本直接扣进去了。
三星:34.18倍PE不是高溢价,是分母塌陷
三星电子的PE 34.18,逻辑完全不同。
三星不是一家纯粹的存储公司,同时做晶圆代工、智能手机、显示面板。问题在于,代工部门为了追赶台积电在3nm和2nm制程上的差距,投入了数百亿美元,但良率低下,这个部门目前在产生巨额亏损。
集团整体净利润大幅缩水。但股价有韩国本土资金托底没有大跌,分子没跌、分母缩小,PE就到了25倍以上。
机构给美光的目标价
支撑这些目标价的核心逻辑高度一致。HBM产品占比提升带动毛利率走高;长期协议锁定了收入确定性;产能向HBM转移压缩了普通DRAM供给,全线产品都有涨价空间;1-gamma制程量产后资本开支进入回报期,自由现金流由负转正。
当然,目标价是基于当前信息和模型假设的预测,不是保证。
存储行业的周期性没有消失,只是被HBM的订单结构部分平滑了。如果AI基础设施投资节奏放缓,或者三星在HBM4阶段重新打入英伟达供应链,供需关系会重新定价。
三、高级封装与下一代AI互联
HBM好坏的标准
每家厂商介绍自己的HBM都说自己最好,三星说三星好,海力士说海力士好,美光说美光好。所以,有没有什么标准来判断HBM的好坏?
三个真正重要的参数
第一个是引脚速率,也就是带宽。
HBM通过数千个微凸块与GPU连接,每个凸块就是一个传输通道。引脚速率衡量的是单个通道每秒能传多少数据。
物理上,数字信号的0和1对应着不同的电压状态,比如1.1V代表1,0V代表0。也就是0和1的计算转换。
传数据就是让电压在这两个状态之间来回切换,这叫电平翻转。引脚速率9.2Gbps的意思是,一个直径几十微米的金属凸块上,电压每秒要精确翻转92亿次。
HBM物理总线宽度固定是1024个引脚,所以总带宽的算法是:引脚速率 × 1024位 ÷ 8 = GB/s。
美光HBM3E标称9.2Gbps,换算下来单堆栈带宽约1.2TB/s。SK海力士和三星目前主推的产品通常在8.0到8.5Gbps之间。
翻转越快,传输越多,但代价是功耗线性上升。
每次翻转本质上是对导线寄生电容充放电,这些能量最终全变成热量。
翻转太快还会导致信号波形失真。前一个脉冲的电压还没落下去,下一个就来了,接收端无法分辨0和1,数据传输直接崩溃。
第二个是能效,单位是pJ/bit。
每传输1bit数据消耗多少皮焦耳的能量,越低越好。
这个指标之所以重要,是因为HBM和GPU封装在一起,两者产生的热量都要在这个封装里散掉。如果HBM自身功耗太高,整个系统的热负担就会超出散热设计上限,GPU被迫降频,实际算力打折。
美光宣称凭借1-beta工艺节点的低电压设计,能效比竞品高约30%。在单张GPU功耗动辄600到1000瓦的数据中心里,这个差距直接换算成电费和散热成本。
第三个是热阻和封装工艺。
这是最难的部分,也是SK海力士目前真正的护城河。
热阻的基本公式是:温升 = 功耗 × 热阻。功耗固定的情况下,热阻越低,芯片温度越低。
HBM是多层DRAM裸片垂直堆叠,底层逻辑芯片发热最多,热量必须向上传导才能散出去。层与层之间填充什么材料,决定了这条散热路径的效率。
目前行业主流有两种工艺。
美光和三星用的是TC-NCF,热压非导电薄膜,固态薄膜加高温高压压合。
问题是压合时微凸块周围容易残留细小气泡,空气导热极差,整体热阻偏高。SK海力士用的是MR-MUF,批量回流模塑底填料。
液态环氧树脂注入各层之间,利用毛细作用填满所有缝隙,固化后零气泡,热阻显著更低。
热阻高的后果是连锁的。DRAM靠微观电容存储电荷,温度每升高10摄氏度,漏电速率指数级上升。
温度过高时,原本能保持64毫秒的电荷可能32毫秒就漏光了,内存控制器被迫加倍发送刷新指令。刷新期间DRAM无法读写,等效于可用带宽大幅缩水。
封装工艺还决定了堆叠层数的上限。数据中心对芯片物理高度有严格限制,液态填充能更紧密地填满缝隙,相同高度下可以放更多层DRAM。
这就是为什么HBM4做到16层堆叠时,封装工艺的良率压力会急剧上升。层数越多,每一层的机械应力和热膨胀系数不一致的问题就越被放大,任何一层裸片发生微观弯曲,整个模块就废了。
读厂商资料时看什么
看到任何一家的HBM介绍,直接找三个东西:
1)标称引脚速率是在什么电压下测的。靠拉高电压来推高频率,在实际数据中心里用不了,因为功耗会突破散热设计上限。
2)堆叠层数和单颗容量。12层36GB的HBM4能否大规模量产、良率是多少,比峰值带宽数字更说明问题。
3)实际供货给谁。所有技术指标的最终验证是客户验收测试。SK海力士几乎垄断了英伟达H100的HBM供应;美光靠能效和带宽的组合切入了H200供应链;三星在HBM3E阶段因为发热问题没能及时通过英伟达测试,目前在HBM4阶段试图追回来。
大客户的选择结果,是对上面所有参数的综合评分。
CXL:内存的下一个战场
HBM解决单张GPU内部带宽问题。当AI集群扩展到数百乃至数千张GPU,就不是算得够不够快的问题了,而是内存分配得够不够灵活。
这个问题的解决是CXL。
缓存一致性问题
现有数据中心的内存架构有一个根本性的问题,内存物理绑定在服务器上,不能跨机器共享。
一台服务器跑大模型推理,KV Cache把内存撑爆,系统崩溃报错;同一机房里另一台服务器跑轻量任务,几百GB内存闲着没人用。
这些闲置的DRAM资产无法调配给需要它的地方,在行业里这叫内存搁浅。超大规模数据中心的内存搁浅率通常在20%到30%之间,按内存占服务器BOM成本40%以上来算,浪费的是真实的资本开支。
第二个问题是缓存一致性。CPU和GPU各自有私有缓存,当两者同时持有同一块内存数据的副本,其中一方修改了,另一方不知道,就会读到过期数据。
过去的解法是软件层面强制把缓存数据写回DRAM再重新读取,这个操作要花掉几微秒,期间处理器流水线停摆。
在强调纳秒级响应的AI系统里,这种停顿会让系统性能下降30%以上,还要求工程师在代码里手动处理跨芯片的数据同步,极易出错。
这两个问题的共同根源是PCIe协议局限。PCIe最初是为硬盘、网卡这类I/O设备设计的,只支持大块数据搬运,不支持字节级的直接读写,也没有内置的缓存一致性机制。
美光的CXL
CXL(Compute Express Link)是在PCIe物理层之上重写了协议逻辑,专门针对内存语义和缓存一致性。
缓存一致性这块,CXL依靠硬件状态机自动维护。系统里每一个64字节的缓存行都有一个状态标记:已修改、独占、共享或无效。
当GPU要修改一块数据,请求到达CPU端的主代理,主代理里有一个嗅探过滤器,记录着哪些设备的缓存里有这份数据的副本。
如果CPU的L3缓存里有,硬件电路自动发出无效化信号,CPU的缓存状态强制变为无效,GPU拿到独占权再执行写入。
整个过程在几到十几纳秒内完成,不需要操作系统介入,不需要程序员手写同步代码。
数据传输格式上,CXL抛弃了PCIe冗长的数据包头,改用固定256字节的FLIT格式,头部开销极小,内存控制器不需要复杂的边界解析,数据像流水线一样连续打入总线。
访问远端CXL内存的延迟,理论上可以压到170到250纳秒,比本地DDR5慢一些,但远比PCIe的微秒级延迟低得多。
内存共享这块,CXL通过交换机把多个内存模块组成独立的内存池,不再从属于任何单一服务器。管理软件可以在微秒级别把内存池中的特定容量动态映射给需要的计算节点。
服务器A的KV Cache快撑爆了,直接从池子里划一块过去,服务器B的闲置内存不再搁浅。
美光CXL的行业地位
美光推出了CXL Type 3内存扩展模块,定位是纯内存扩展设备,基于自家DDR5工艺制造。
逻辑上,这和HBM是两个不同层次的产品。HBM解决的是GPU旁边那几百GB的极致带宽需求,延迟在20纳秒级别。
CXL模块解决的是跨节点的大容量扩展,延迟在250纳秒级别,容量可以做到TB量级。
两者配合使用的场景是,把频繁访问的热数据留在本地HBM里,把长上下文的历史KV Cache、checkpoint等冷数据卸载到CXL内存池。
AI框架在计算第N层的时候,提前发出指令把第N+1层需要的冷数据从CXL内存预取到本地,用计算时间掩盖CXL的物理延迟。这样既不浪费昂贵的HBM容量,又能让超长上下文窗口,比如百万Token级别成为可能。
从美光的商业角度看,CXL是一个新的切入点。
HBM市场海力士先发优势明显,竞争激烈;CXL内存扩展市场还在早期,客户锁定尚未形成,美光作为纯存储制造商,在这里没有额外的历史包袱。
而且CXL模块使用的是标准DDR5工艺,不需要HBM那样复杂的堆叠封装,良率和产能压力都更小。
数据中心内存搁浅问题是真实的资本浪费,CXL池化是目前架构层面唯一可行的解法。这个需求不会消失。
四、行业经济学与前沿研究
下一个十年
建一座先进DRAM晶圆厂,造价150到200亿美元,其中,一台ASML的EUV光刻机就超过2亿美元。配套的供电和冷却系统还要额外投入。
设备折旧周期是5年。换算下来,晶圆厂每天一睁眼就在摊销数千万美元,不管有没有订单、有没有出货。
设备利用率必须保持在95%以上。利用率一旦下滑,每比特的制造成本就会急剧攀升。这就是为什么存储行业的周期性那么剧烈。
需求一旦下滑,厂商不能轻易减产,减产反而会让成本结构更难看,只能硬撑,然后价格战。
美光通过HBM的长期订单,部分对冲了这个风险,但晶圆厂折旧的物理规律不会改变。
HBM为什么贵?
HBM制造成本是普通DDR5的数倍,把多层DRAM裸片垂直堆叠。任何一层有缺陷,整个模块报废。
假设单片裸片良率95%,层间键合良率99%,堆叠N层,总良率是:
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯