深度研究报告
LPU架构对存储产业的深层影响研究
SRAM vs HBM:AI推理芯片架构之变重塑存储产业格局
报告日期:2026年3月
行业分类:半导体存储 / AI推理芯片 / 数据中心
核心结论:LPU不替代HBM,SRAM与HBM长期共存,存储超级周期不改
核心观点摘要
2025年12月,NVIDIA以约200亿美元收购Groq的LPU(Language Processing Unit)技术授权,这一交易在全球存储产业引发强烈震动。韩国KOSPI指数连续两日大跌,SK Hynix和三星电子股价分别下挫9.6%和11.7%,市场一度担忧SRAM架构将颠覆HBM主导的AI存储格局。
经过深入分析,我们的核心结论是:LPU的SRAM架构并非HBM的替代方案,二者服务于AI计算的不同环节,形成互补而非替代关系。LPU解决的是AI推理中"解码"(Decode)环节的延迟瓶颈,而HBM仍是AI训练和推理"预填充"(Prefill)环节不可替代的核心存储方案。这一架构分化实质上扩大了AI芯片对存储的总需求,而非缩减。
我们判断,NVIDIA整合Groq的LPU技术后,将推出"预填充GPU + 解码LPU"的分离式推理架构,形成GPU(HBM)与LPU(SRAM)的协同部署格局。这意味着存储超级周期的核心逻辑——AI训练和推理对HBM的持续需求——不会被动摇,同时SRAM芯片需求将成为新的增量空间。建议投资者对存储板块维持"增持"评级,同时关注SRAM及CIM(存内计算)赛道的新兴投资机会。
一、LPU技术架构深度解析
1.1 什么是LPU:从Groq到NVIDIA
LPU(Language Processing Unit)是Groq公司自2016年起自主研发的AI推理专用处理器。其前身为张量流处理器(TSP),在大语言模型爆发后更名为LPU。2025年12月24日,NVIDIA宣布以约200亿美元获得Groq的LPU技术非排他性授权及核心团队,包括创始人Jonathan Ross和总裁Sunny Madra,这是NVIDIA有史以来最大规模的AI相关交易。
LPU的核心设计理念可以用"确定性流水线"来概括。与GPU的多核并行、动态调度架构不同,LPU采用单核设计,将数百兆字节的SRAM直接集成在芯片上作为主存储(而非缓存),配合编译器驱动的静态调度,实现完全确定性的执行流程。每个时钟周期的操作都由编译器预先规划,消除了GPU架构中常见的调度延迟和资源争用。
1.2 LPU核心技术参数
技术参数 | LPU v1 | LPU v2(规划中) |
制程工艺 | GlobalFoundries 14nm | Samsung 4nm |
芯片面积 | 25×29mm(~725mm²) | ~225mm²(估算) |
片上SRAM | 230MB | 更大容量(未公布) |
片上带宽 | 80TB/s | >80TB/s |
INT8算力 | 750 TOPS | 显著提升 |
FP16算力 | 188 TFLOPS | 显著提升 |
外部HBM | 无,完全不依赖 | 无 |
散热方案 | 风冷 | 风冷 |
时钟频率 | 900MHz | 更高 |
数据来源:Groq官方文档、SemiAnalysis、IntuitionLabs研究
1.3 LPU的性能优势与定位
LPU的核心优势在于超低延迟推理。独立测试机构Artificial Analysis的基准测试显示,Groq的LPU在Llama 3 8B模型上实现了877 tokens/s的吞吐量,在Llama 3 70B上达到284 tokens/s,约为当时最快GPU方案的2倍。Groq官方声称,LPU在Llama 2 70B上可实现300 tokens/s的单用户生成速度,较NVIDIA H100集群快10倍。
这种极致性能来源于SRAM的根本性优势:片上SRAM的访问速度约为HBM的20倍(能耗仅为HBM的1/20——0.3 pJ/bit vs 6 pJ/bit),且无需经过复杂的缓存层级和动态调度,数据可以在计算单元之间以全速流动。这使得LPU在生成式AI的"逐token解码"场景中具有GPU无法企及的延迟优势。
但LPU并非万能。SRAM的单位面积成本远高于DRAM,相同容量需要5-10倍的芯片面积,这从根本上限制了其可扩展性。一颗LPU v1芯片仅有230MB的SRAM,而一颗H100 GPU配备了80GB的HBM——容量差距达到350倍。这意味着运行大型模型需要数百颗LPU芯片协同工作,这正是Groq开发同步芯片间互联协议的原因。
二、SRAM与HBM:互补而非替代
2.1 两种存储技术的本质差异
对比维度 | SRAM(LPU方案) | HBM(GPU方案) |
位置 | 片上集成 | 片外堆叠,通过CoWoS封装 |
带宽 | ~80TB/s(片上) | ~1.2TB/s/stack(HBM3e) |
延迟 | 亚纳秒级 | 纳秒级 |
能效 | ~0.3 pJ/bit | ~6 pJ/bit |
容量/芯片 | ~230MB | 16-36GB/stack(HBM3e) |
面积效率 | 低(6T SRAM单元较大) | 高(DRAM 1T1C单元) |
成本/GB | 极高 | 高(但远低于SRAM) |
封装需求 | 标准封装,无需CoWoS | 需要CoWoS/先进封装 |
最佳场景 | 推理解码(低延迟、小批量) | 训练+推理预填充(大批量、高吞吐) |
数据来源:Vik's Newsletter、SemiAnalysis、Groq技术白皮书
2.2 AI推理的双重硬件问题:预填充与解码
理解LPU对存储产业的影响,关键在于认识到AI推理并非单一任务,而是由两个截然不同的计算阶段组成。预填充(Prefill)阶段负责处理用户输入的全部token,这是一个计算密集型任务,需要大量并行矩阵乘法,GPU(配合大容量HBM)在此环节具有绝对优势。解码(Decode)阶段负责逐个生成输出token,这是一个内存带宽受限的顺序任务——计算核心频繁等待从HBM读取数据,导致GPU利用率低下,而SRAM的超高带宽在此环节具有天然优势。
NVIDIA收购Groq的战略意图,正是为了补全其在推理解码环节的架构短板。在收购前,NVIDIA的解码方案同样基于HBM,存在内存带宽瓶颈。Groq的LPU技术使NVIDIA获得了控制芯片内部数据流的能力——这在精神上类似于TPU的脉动阵列——从而在解码任务上实现质的飞跃。市场预期NVIDIA将在GTC 2026上发布基于Groq技术的专用解码芯片(市场暂称"LPX"),与GPU形成预填充+解码的分离式推理架构。
2.3 黄仁勋的明确表态:SRAM不会吃掉HBM的午餐
面对市场对SRAM替代HBM的恐慌,NVIDIA CEO黄仁勋已多次公开澄清。韩国独立研究机构KIS在分析中指出:认为SRAM推理芯片会减少HBM用量,反映了对存储技术的理解不足。SRAM的单元面积是DRAM的5-10倍,相同容量所需芯片面积远大于DRAM,这从物理层面决定了SRAM无法替代HBM在大容量场景中的地位。
更重要的是,从系统层面看,SRAM解码芯片的引入实际上增加了AI系统的总存储需求。在分离式推理架构中,GPU仍需HBM来处理预填充任务和存储KV缓存,而LPU芯片则额外消耗大量SRAM。NVIDIA的Dynamo编排系统负责在预填充GPU和解码LPU之间调度KV缓存的移动,并在缓存超出当前层级时将其驱逐到上下文存储中。这意味着整个推理系统对存储的总需求是扩大而非缩减的。
三、对存储产业的具体影响分析
3.1 HBM市场:超级周期逻辑不改
全球HBM市场正处于前所未有的超级周期中。据美国银行(BofA)预测,2026年HBM市场规模将达到546亿美元,同比增长58%。高盛预测,定制ASIC AI芯片对HBM的需求将暴增82%,占市场总量的三分之一。SK Hynix的HBM产能已预售至2026年底,Micron和三星的情况类似。
LPU的出现不但不会削弱HBM需求,反而可能因推理效率的提升而加速AI部署规模的扩大,间接带动更多GPU(及其配套HBM)的采购。从NVIDIA的产品路线图看,HBM容量从A100的80GB HBM2E到Rubin Ultra的1024GB HBM4E,呈指数级增长趋势。现代AI遵循一种"内存帕金森定律"——神经网络架构会不断膨胀以占满一切可用的HBM容量。
HBM4已进入量产阶段,SK Hynix和三星均将生产计划提前至2026年2月。HBM4的数据传输速度达到11Gbps,总带宽超过2.8TB/s,并首次引入使用先进制程制造的逻辑基础层(base die)。UBS预测SK Hynix将在2026年NVIDIA Rubin平台的HBM4市场中占据约70%的份额。16层HBM堆叠(HBM4E)预计将在2026年Q4交付,但从12层到16层的技术跨越——晶圆厚度需从50微米降至30微米——被业内描述为"极具挑战性"。
3.2 SRAM市场:新增量空间打开
LPU架构的规模化部署将创造显著的SRAM增量需求。以Groq的GroqRack为例,部署一个能够运行70B参数模型的系统需要数百颗LPU芯片,每颗芯片集成230MB SRAM,整个系统的SRAM总量远超传统芯片设计。如果NVIDIA将LPU技术整合进其产品线并大规模生产,SRAM的需求量将出现结构性跃升。
值得关注的是,SRAM正在AI芯片中获得更广泛的应用。台积电的CIM(存内计算)芯片正越来越多地用SRAM替代部分DRAM功能。联发科天玑9500的超高效NPU也采用了存内处理架构,让AI模型能够持续驻留在SRAM中运行。SRAM EDA工具供应商iSTART指出,嵌入大量SRAM的ASIC架构正在逐步涌现。这一趋势并不取代HBM,而是在AI芯片的存储层级中增加了一个新的、高价值的需求层。
3.3 DRAM与NAND:涟漪效应
HBM生产对常规DRAM的挤出效应已经十分显著。每GB HBM消耗的晶圆产能约为DDR5的3倍,SK Hynix和三星已将高达40%的先进晶圆产能转向HBM生产。这导致常规DDR5和LPDDR5出现结构性供应紧张,三星已将合约价格上调30%-60%。分析师预计DRAM价格将在2026年上半年继续上涨40%-50%。
在NAND闪存方面,AI数据中心对高性能SSD的需求持续增长。AI推理对数据预处理、模型加载、checkpoint存储和KV缓存溢出都需要大容量、高带宽的存储支持。LPU架构的Dynamo编排系统在KV缓存超出SRAM和HBM容量时,需要将其驱逐到NVMe SSD等上下文存储层,这为企业级SSD创造了新的需求场景。Pure Storage等存储厂商已明确指出,LPU推理引擎需要足够快的共享和扩展数据存储架构来匹配其处理速度。
四、存储市场量化分析与预测
4.1 全球AI存储市场规模预测
细分市场 | 2024(实际) | 2025(预估) | 2026E | 2028E | CAGR |
HBM | $16B | $35B | $55B | $100B | ~58% |
服务器DRAM | $30B | $45B | $65B | $90B | ~32% |
企业级SSD | $18B | $25B | $35B | $50B | ~29% |
AI SRAM | ~$1B | ~$2B | $5B+ | $15B+ | >70% |
数据来源:BofA、Goldman Sachs、WSTS、TrendForce,综合整理及估算
4.2 存储产业链竞争格局变化
HBM领域的竞争格局正在经历深刻变化。SK Hynix凭借与NVIDIA的紧密合作,在2025年Q2首次超越三星成为全球DRAM营收第一,HBM市场份额达到62%。三星CEO全英铉在新年讲话中承认"客户表示三星回来了",但仍在追赶。Micron虽仅占11%的HBM市场份额,但其HBM3E产品已获NVIDIA认证,2025年Q4录得创纪录的113亿美元季度营收,随后宣布退出Crucial消费品牌以释放晶圆产能给战略客户。
SRAM方面,随着LPU架构的推广,SRAM设计工具和IP供应商将成为新的受益者。台积电作为SRAM制造的主要代工厂,其先进制程的SRAM密度和良率将成为LPU芯片竞争力的关键变量。值得注意的是,当Groq v1使用GlobalFoundries 14nm制程时,SRAM面积占据了芯片的绝大部分空间;迁移到三星4nm后,相同容量的SRAM面积可缩小约70%,或在相同面积上集成数倍的SRAM容量。
五、投资机会梳理
5.1 全球核心标的分析
公司 | 市场/代码 | 核心逻辑 | LPU相关影响 |
SK Hynix | KRX: 000660 | HBM全球份额62%,NVIDIA核心供应商 | 短期情绪扰动,长期HBM需求不减反增 |
三星电子 | KRX: 005930 | HBM4追赶中,4nm代工Groq v2 | 双重受益:存储+代工,估值修复空间大 |
Micron | NASDAQ: MU | HBM3E量产,退出消费专注AI | AI存储纯度最高的美股标的 |
NVIDIA | NASDAQ: NVDA | GPU+LPU双引擎,推理市场垄断者 | LPU整合成功将巩固推理市场霸主地位 |
台积电 | NYSE: TSM | SRAM制造核心代工厂,先进封装龙头 | CoWoS+SRAM代工双重受益 |
Sandisk | NASDAQ: SNDK | NAND闪存龙头,AI边缘存储 | KV缓存溢出到SSD,企业级SSD需求上升 |
注:以上分析仅供参考,不构成投资建议。
六、风险提示与投资策略
6.1 主要风险因素
市场情绪风险:LPU相关消息已导致存储股出现剧烈波动。GTC 2026大会前后,NVIDIA若发布基于LPU技术的新产品,短期内可能再度引发市场对"SRAM替代HBM"的恐慌性抛售。建议投资者利用情绪波动逢低布局存储核心标的。
技术路线不确定性:虽然NVIDIA已获得Groq的技术授权,但LPU架构的大规模商用仍面临挑战。Groq的编译器复杂度极高,大模型的编译优化需要大量工程投入。此外,LPU v2芯片的量产进度(三星4nm代工)、GroqRack的系统良率、以及与NVIDIA现有软件栈(CUDA/TensorRT)的整合效率,都是需要持续跟踪的风险点。
竞争替代风险:AMD、Broadcom、以及众多AI推理初创公司也在积极开发专用推理芯片。d-Matrix的Corsair PCIe卡据称可提供150TB/s的SRAM带宽,Cerebras、SambaNova等公司也有各自的解决方案。如果竞争方案在成本效率上优于LPU,NVIDIA的投资回报可能不及预期。
存储周期回落风险:虽然当前存储超级周期受AI结构性需求驱动,但历史上存储行业从未摆脱周期性规律。三星、SK Hynix和Micron正在大规模扩产——三星计划2026年扩产50%,SK Hynix宣布了价值5000亿美元的四座新工厂计划。如果新产能在2027-2028年集中释放,可能导致供过于求和价格回落。
6.2 投资策略建议
核心持仓策略:维持对HBM三大供应商(SK Hynix、三星、Micron)的"增持"评级。LPU的出现不改变AI训练和推理预填充对HBM的刚性需求,反而通过加速AI部署规模扩大间接利好HBM。建议在市场因LPU消息恐慌性抛售时逢低加仓。SK Hynix当前处于HBM4量产领先地位,是确定性最高的标的。
增量配置策略:关注SRAM和CIM赛道的新兴投资机会。SRAM EDA工具、SRAM IP设计、以及大面积SRAM芯片的代工和封测环节,都将受益于LPU架构的规模化。台积电作为先进制程SRAM的核心代工厂,以及三星作为Groq v2芯片的代工方,都具有双重受益逻辑。
对冲策略:配置AI数据中心存储全链条。在HBM、服务器DRAM、企业级SSD三个层级分散布局,以对冲单一技术路线的波动风险。AI推理系统对存储的需求是分层的、多元的——从SRAM(微秒级)到HBM(纳秒级)到DDR5(毫秒级)再到NVMe SSD(微秒级),每一层都有对应的投资机会。
七、结论
NVIDIA以200亿美元收购Groq的LPU技术,是AI芯片产业从"通用计算"向"专用计算"演进的标志性事件。LPU的SRAM架构为AI推理的解码环节提供了革命性的低延迟解决方案,但这并不意味着HBM时代的终结——恰恰相反,推理市场的架构分化意味着AI系统对存储的总需求在扩大而非缩减。
从产业链视角看,我们正进入一个"SRAM+HBM+DRAM+NAND"多层级存储协同的新时代。每一层存储都有其不可替代的物理优势和应用场景,而AI工作负载的复杂性和规模的爆发式增长,确保了每一层都将享受持续的需求拉动。存储超级周期的底层逻辑不仅未被动摇,反而因推理架构的多样化而进一步加固。
对于投资者而言,LPU带来的短期市场恐慌恰恰是布局存储赛道的战略性窗口。我们建议:核心持仓锁定HBM三巨头(SK Hynix为首选),增量配置关注SRAM/CIM生态和先进封装环节,对冲配置覆盖企业级SSD和存储接口芯片。在AI算力投资从训练向推理加速倾斜的大趋势下,存储产业链将是未来三年最具确定性的科技投资主线之一。
免责声明:本报告仅供参考,不构成任何投资建议。报告中的信息来源于公开资料整理,作者不对信息的准确性和完整性做出任何保证。投资者据此操作,风险自担。市场有风险,投资需谨慎。


