推广 热搜： 采购方式甲带滤芯气动隔膜泵带式称重给煤机减速机型号无级变速机链式给煤机履带减速机

LPU对存储产业影响深度研究报告

日期：2026-04-20 15:31:40 来源：网络整理作者：本站编辑评论：0

LPU对存储产业影响深度研究报告

深度研究报告

LPU架构对存储产业的深层影响研究

SRAM vs HBM：AI推理芯片架构之变重塑存储产业格局

报告日期：2026年3月

行业分类：半导体存储 / AI推理芯片 / 数据中心

核心结论：LPU不替代HBM，SRAM与HBM长期共存，存储超级周期不改

核心观点摘要

2025年12月，NVIDIA以约200亿美元收购Groq的LPU（Language Processing Unit）技术授权，这一交易在全球存储产业引发强烈震动。韩国KOSPI指数连续两日大跌，SK Hynix和三星电子股价分别下挫9.6%和11.7%，市场一度担忧SRAM架构将颠覆HBM主导的AI存储格局。

经过深入分析，我们的核心结论是：LPU的SRAM架构并非HBM的替代方案，二者服务于AI计算的不同环节，形成互补而非替代关系。LPU解决的是AI推理中"解码"（Decode）环节的延迟瓶颈，而HBM仍是AI训练和推理"预填充"（Prefill）环节不可替代的核心存储方案。这一架构分化实质上扩大了AI芯片对存储的总需求，而非缩减。

我们判断，NVIDIA整合Groq的LPU技术后，将推出"预填充GPU + 解码LPU"的分离式推理架构，形成GPU（HBM）与LPU（SRAM）的协同部署格局。这意味着存储超级周期的核心逻辑——AI训练和推理对HBM的持续需求——不会被动摇，同时SRAM芯片需求将成为新的增量空间。建议投资者对存储板块维持"增持"评级，同时关注SRAM及CIM（存内计算）赛道的新兴投资机会。

一、LPU技术架构深度解析

1.1 什么是LPU：从Groq到NVIDIA

LPU（Language Processing Unit）是Groq公司自2016年起自主研发的AI推理专用处理器。其前身为张量流处理器（TSP），在大语言模型爆发后更名为LPU。2025年12月24日，NVIDIA宣布以约200亿美元获得Groq的LPU技术非排他性授权及核心团队，包括创始人Jonathan Ross和总裁Sunny Madra，这是NVIDIA有史以来最大规模的AI相关交易。

LPU的核心设计理念可以用"确定性流水线"来概括。与GPU的多核并行、动态调度架构不同，LPU采用单核设计，将数百兆字节的SRAM直接集成在芯片上作为主存储（而非缓存），配合编译器驱动的静态调度，实现完全确定性的执行流程。每个时钟周期的操作都由编译器预先规划，消除了GPU架构中常见的调度延迟和资源争用。

1.2 LPU核心技术参数

技术参数	LPU v1	LPU v2（规划中）
制程工艺	GlobalFoundries 14nm	Samsung 4nm
芯片面积	25×29mm（~725mm²）	~225mm²（估算）
片上SRAM	230MB	更大容量（未公布）
片上带宽	80TB/s	>80TB/s
INT8算力	750 TOPS	显著提升
FP16算力	188 TFLOPS	显著提升
外部HBM	无，完全不依赖	无
散热方案	风冷	风冷
时钟频率	900MHz	更高

数据来源：Groq官方文档、SemiAnalysis、IntuitionLabs研究

1.3 LPU的性能优势与定位

LPU的核心优势在于超低延迟推理。独立测试机构Artificial Analysis的基准测试显示，Groq的LPU在Llama 3 8B模型上实现了877 tokens/s的吞吐量，在Llama 3 70B上达到284 tokens/s，约为当时最快GPU方案的2倍。Groq官方声称，LPU在Llama 2 70B上可实现300 tokens/s的单用户生成速度，较NVIDIA H100集群快10倍。

这种极致性能来源于SRAM的根本性优势：片上SRAM的访问速度约为HBM的20倍（能耗仅为HBM的1/20——0.3 pJ/bit vs 6 pJ/bit），且无需经过复杂的缓存层级和动态调度，数据可以在计算单元之间以全速流动。这使得LPU在生成式AI的"逐token解码"场景中具有GPU无法企及的延迟优势。

但LPU并非万能。SRAM的单位面积成本远高于DRAM，相同容量需要5-10倍的芯片面积，这从根本上限制了其可扩展性。一颗LPU v1芯片仅有230MB的SRAM，而一颗H100 GPU配备了80GB的HBM——容量差距达到350倍。这意味着运行大型模型需要数百颗LPU芯片协同工作，这正是Groq开发同步芯片间互联协议的原因。

二、SRAM与HBM：互补而非替代

2.1 两种存储技术的本质差异

对比维度	SRAM（LPU方案）	HBM（GPU方案）
位置	片上集成	片外堆叠，通过CoWoS封装
带宽	~80TB/s（片上）	~1.2TB/s/stack（HBM3e）
延迟	亚纳秒级	纳秒级
能效	~0.3 pJ/bit	~6 pJ/bit
容量/芯片	~230MB	16-36GB/stack（HBM3e）
面积效率	低（6T SRAM单元较大）	高（DRAM 1T1C单元）
成本/GB	极高	高（但远低于SRAM）
封装需求	标准封装，无需CoWoS	需要CoWoS/先进封装
最佳场景	推理解码（低延迟、小批量）	训练+推理预填充（大批量、高吞吐）

数据来源：Vik's Newsletter、SemiAnalysis、Groq技术白皮书

2.2 AI推理的双重硬件问题：预填充与解码

理解LPU对存储产业的影响，关键在于认识到AI推理并非单一任务，而是由两个截然不同的计算阶段组成。预填充（Prefill）阶段负责处理用户输入的全部token，这是一个计算密集型任务，需要大量并行矩阵乘法，GPU（配合大容量HBM）在此环节具有绝对优势。解码（Decode）阶段负责逐个生成输出token，这是一个内存带宽受限的顺序任务——计算核心频繁等待从HBM读取数据，导致GPU利用率低下，而SRAM的超高带宽在此环节具有天然优势。

NVIDIA收购Groq的战略意图，正是为了补全其在推理解码环节的架构短板。在收购前，NVIDIA的解码方案同样基于HBM，存在内存带宽瓶颈。Groq的LPU技术使NVIDIA获得了控制芯片内部数据流的能力——这在精神上类似于TPU的脉动阵列——从而在解码任务上实现质的飞跃。市场预期NVIDIA将在GTC 2026上发布基于Groq技术的专用解码芯片（市场暂称"LPX"），与GPU形成预填充+解码的分离式推理架构。

2.3 黄仁勋的明确表态：SRAM不会吃掉HBM的午餐

面对市场对SRAM替代HBM的恐慌，NVIDIA CEO黄仁勋已多次公开澄清。韩国独立研究机构KIS在分析中指出：认为SRAM推理芯片会减少HBM用量，反映了对存储技术的理解不足。SRAM的单元面积是DRAM的5-10倍，相同容量所需芯片面积远大于DRAM，这从物理层面决定了SRAM无法替代HBM在大容量场景中的地位。

更重要的是，从系统层面看，SRAM解码芯片的引入实际上增加了AI系统的总存储需求。在分离式推理架构中，GPU仍需HBM来处理预填充任务和存储KV缓存，而LPU芯片则额外消耗大量SRAM。NVIDIA的Dynamo编排系统负责在预填充GPU和解码LPU之间调度KV缓存的移动，并在缓存超出当前层级时将其驱逐到上下文存储中。这意味着整个推理系统对存储的总需求是扩大而非缩减的。

三、对存储产业的具体影响分析

3.1 HBM市场：超级周期逻辑不改

全球HBM市场正处于前所未有的超级周期中。据美国银行（BofA）预测，2026年HBM市场规模将达到546亿美元，同比增长58%。高盛预测，定制ASIC AI芯片对HBM的需求将暴增82%，占市场总量的三分之一。SK Hynix的HBM产能已预售至2026年底，Micron和三星的情况类似。

LPU的出现不但不会削弱HBM需求，反而可能因推理效率的提升而加速AI部署规模的扩大，间接带动更多GPU（及其配套HBM）的采购。从NVIDIA的产品路线图看，HBM容量从A100的80GB HBM2E到Rubin Ultra的1024GB HBM4E，呈指数级增长趋势。现代AI遵循一种"内存帕金森定律"——神经网络架构会不断膨胀以占满一切可用的HBM容量。

HBM4已进入量产阶段，SK Hynix和三星均将生产计划提前至2026年2月。HBM4的数据传输速度达到11Gbps，总带宽超过2.8TB/s，并首次引入使用先进制程制造的逻辑基础层（base die）。UBS预测SK Hynix将在2026年NVIDIA Rubin平台的HBM4市场中占据约70%的份额。16层HBM堆叠（HBM4E）预计将在2026年Q4交付，但从12层到16层的技术跨越——晶圆厚度需从50微米降至30微米——被业内描述为"极具挑战性"。

3.2 SRAM市场：新增量空间打开

LPU架构的规模化部署将创造显著的SRAM增量需求。以Groq的GroqRack为例，部署一个能够运行70B参数模型的系统需要数百颗LPU芯片，每颗芯片集成230MB SRAM，整个系统的SRAM总量远超传统芯片设计。如果NVIDIA将LPU技术整合进其产品线并大规模生产，SRAM的需求量将出现结构性跃升。

值得关注的是，SRAM正在AI芯片中获得更广泛的应用。台积电的CIM（存内计算）芯片正越来越多地用SRAM替代部分DRAM功能。联发科天玑9500的超高效NPU也采用了存内处理架构，让AI模型能够持续驻留在SRAM中运行。SRAM EDA工具供应商iSTART指出，嵌入大量SRAM的ASIC架构正在逐步涌现。这一趋势并不取代HBM，而是在AI芯片的存储层级中增加了一个新的、高价值的需求层。

3.3 DRAM与NAND：涟漪效应

HBM生产对常规DRAM的挤出效应已经十分显著。每GB HBM消耗的晶圆产能约为DDR5的3倍，SK Hynix和三星已将高达40%的先进晶圆产能转向HBM生产。这导致常规DDR5和LPDDR5出现结构性供应紧张，三星已将合约价格上调30%-60%。分析师预计DRAM价格将在2026年上半年继续上涨40%-50%。

在NAND闪存方面，AI数据中心对高性能SSD的需求持续增长。AI推理对数据预处理、模型加载、checkpoint存储和KV缓存溢出都需要大容量、高带宽的存储支持。LPU架构的Dynamo编排系统在KV缓存超出SRAM和HBM容量时，需要将其驱逐到NVMe SSD等上下文存储层，这为企业级SSD创造了新的需求场景。Pure Storage等存储厂商已明确指出，LPU推理引擎需要足够快的共享和扩展数据存储架构来匹配其处理速度。

四、存储市场量化分析与预测

4.1 全球AI存储市场规模预测

细分市场	2024（实际）	2025（预估）	2026E	2028E	CAGR
HBM	$16B	$35B	$55B	$100B	~58%
服务器DRAM	$30B	$45B	$65B	$90B	~32%
企业级SSD	$18B	$25B	$35B	$50B	~29%
AI SRAM	~$1B	~$2B	$5B+	$15B+	>70%

数据来源：BofA、Goldman Sachs、WSTS、TrendForce，综合整理及估算

4.2 存储产业链竞争格局变化

HBM领域的竞争格局正在经历深刻变化。SK Hynix凭借与NVIDIA的紧密合作，在2025年Q2首次超越三星成为全球DRAM营收第一，HBM市场份额达到62%。三星CEO全英铉在新年讲话中承认"客户表示三星回来了"，但仍在追赶。Micron虽仅占11%的HBM市场份额，但其HBM3E产品已获NVIDIA认证，2025年Q4录得创纪录的113亿美元季度营收，随后宣布退出Crucial消费品牌以释放晶圆产能给战略客户。

SRAM方面，随着LPU架构的推广，SRAM设计工具和IP供应商将成为新的受益者。台积电作为SRAM制造的主要代工厂，其先进制程的SRAM密度和良率将成为LPU芯片竞争力的关键变量。值得注意的是，当Groq v1使用GlobalFoundries 14nm制程时，SRAM面积占据了芯片的绝大部分空间；迁移到三星4nm后，相同容量的SRAM面积可缩小约70%，或在相同面积上集成数倍的SRAM容量。

五、投资机会梳理

5.1 全球核心标的分析

公司	市场/代码	核心逻辑	LPU相关影响
SK Hynix	KRX: 000660	HBM全球份额62%，NVIDIA核心供应商	短期情绪扰动，长期HBM需求不减反增
三星电子	KRX: 005930	HBM4追赶中，4nm代工Groq v2	双重受益：存储+代工，估值修复空间大
Micron	NASDAQ: MU	HBM3E量产，退出消费专注AI	AI存储纯度最高的美股标的
NVIDIA	NASDAQ: NVDA	GPU+LPU双引擎，推理市场垄断者	LPU整合成功将巩固推理市场霸主地位
台积电	NYSE: TSM	SRAM制造核心代工厂，先进封装龙头	CoWoS+SRAM代工双重受益
Sandisk	NASDAQ: SNDK	NAND闪存龙头，AI边缘存储	KV缓存溢出到SSD，企业级SSD需求上升

注：以上分析仅供参考，不构成投资建议。

六、风险提示与投资策略

6.1 主要风险因素

市场情绪风险：LPU相关消息已导致存储股出现剧烈波动。GTC 2026大会前后，NVIDIA若发布基于LPU技术的新产品，短期内可能再度引发市场对"SRAM替代HBM"的恐慌性抛售。建议投资者利用情绪波动逢低布局存储核心标的。

技术路线不确定性：虽然NVIDIA已获得Groq的技术授权，但LPU架构的大规模商用仍面临挑战。Groq的编译器复杂度极高，大模型的编译优化需要大量工程投入。此外，LPU v2芯片的量产进度（三星4nm代工）、GroqRack的系统良率、以及与NVIDIA现有软件栈（CUDA/TensorRT）的整合效率，都是需要持续跟踪的风险点。

竞争替代风险：AMD、Broadcom、以及众多AI推理初创公司也在积极开发专用推理芯片。d-Matrix的Corsair PCIe卡据称可提供150TB/s的SRAM带宽，Cerebras、SambaNova等公司也有各自的解决方案。如果竞争方案在成本效率上优于LPU，NVIDIA的投资回报可能不及预期。

存储周期回落风险：虽然当前存储超级周期受AI结构性需求驱动，但历史上存储行业从未摆脱周期性规律。三星、SK Hynix和Micron正在大规模扩产——三星计划2026年扩产50%，SK Hynix宣布了价值5000亿美元的四座新工厂计划。如果新产能在2027-2028年集中释放，可能导致供过于求和价格回落。

6.2 投资策略建议

核心持仓策略：维持对HBM三大供应商（SK Hynix、三星、Micron）的"增持"评级。LPU的出现不改变AI训练和推理预填充对HBM的刚性需求，反而通过加速AI部署规模扩大间接利好HBM。建议在市场因LPU消息恐慌性抛售时逢低加仓。SK Hynix当前处于HBM4量产领先地位，是确定性最高的标的。

增量配置策略：关注SRAM和CIM赛道的新兴投资机会。SRAM EDA工具、SRAM IP设计、以及大面积SRAM芯片的代工和封测环节，都将受益于LPU架构的规模化。台积电作为先进制程SRAM的核心代工厂，以及三星作为Groq v2芯片的代工方，都具有双重受益逻辑。

对冲策略：配置AI数据中心存储全链条。在HBM、服务器DRAM、企业级SSD三个层级分散布局，以对冲单一技术路线的波动风险。AI推理系统对存储的需求是分层的、多元的——从SRAM（微秒级）到HBM（纳秒级）到DDR5（毫秒级）再到NVMe SSD（微秒级），每一层都有对应的投资机会。

七、结论

NVIDIA以200亿美元收购Groq的LPU技术，是AI芯片产业从"通用计算"向"专用计算"演进的标志性事件。LPU的SRAM架构为AI推理的解码环节提供了革命性的低延迟解决方案，但这并不意味着HBM时代的终结——恰恰相反，推理市场的架构分化意味着AI系统对存储的总需求在扩大而非缩减。

从产业链视角看，我们正进入一个"SRAM+HBM+DRAM+NAND"多层级存储协同的新时代。每一层存储都有其不可替代的物理优势和应用场景，而AI工作负载的复杂性和规模的爆发式增长，确保了每一层都将享受持续的需求拉动。存储超级周期的底层逻辑不仅未被动摇，反而因推理架构的多样化而进一步加固。

对于投资者而言，LPU带来的短期市场恐慌恰恰是布局存储赛道的战略性窗口。我们建议：核心持仓锁定HBM三巨头（SK Hynix为首选），增量配置关注SRAM/CIM生态和先进封装环节，对冲配置覆盖企业级SSD和存储接口芯片。在AI算力投资从训练向推理加速倾斜的大趋势下，存储产业链将是未来三年最具确定性的科技投资主线之一。

免责声明：本报告仅供参考，不构成任何投资建议。报告中的信息来源于公开资料整理，作者不对信息的准确性和完整性做出任何保证。投资者据此操作，风险自担。市场有风险，投资需谨慎。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行