推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

LPU对存储产业影响深度研究报告

   日期:2026-04-20 15:31:40     来源:网络整理    作者:本站编辑    评论:0    
LPU对存储产业影响深度研究报告

深度研究报告

LPU架构对存储产业的深层影响研究

SRAM vs HBM:AI推理芯片架构之变重塑存储产业格局

报告日期:2026年3月

行业分类:半导体存储 / AI推理芯片 / 数据中心

核心结论:LPU不替代HBM,SRAM与HBM长期共存,存储超级周期不改

核心观点摘要

2025年12月,NVIDIA以约200亿美元收购Groq的LPU(Language Processing Unit)技术授权,这一交易在全球存储产业引发强烈震动。韩国KOSPI指数连续两日大跌,SK Hynix和三星电子股价分别下挫9.6%和11.7%,市场一度担忧SRAM架构将颠覆HBM主导的AI存储格局。

经过深入分析,我们的核心结论是:LPU的SRAM架构并非HBM的替代方案,二者服务于AI计算的不同环节,形成互补而非替代关系。LPU解决的是AI推理中"解码"(Decode)环节的延迟瓶颈,而HBM仍是AI训练和推理"预填充"(Prefill)环节不可替代的核心存储方案。这一架构分化实质上扩大了AI芯片对存储的总需求,而非缩减。

我们判断,NVIDIA整合Groq的LPU技术后,将推出"预填充GPU + 解码LPU"的分离式推理架构,形成GPU(HBM)与LPU(SRAM)的协同部署格局。这意味着存储超级周期的核心逻辑——AI训练和推理对HBM的持续需求——不会被动摇,同时SRAM芯片需求将成为新的增量空间。建议投资者对存储板块维持"增持"评级,同时关注SRAM及CIM(存内计算)赛道的新兴投资机会。

一、LPU技术架构深度解析

1.1 什么是LPU:从Groq到NVIDIA

LPU(Language Processing Unit)是Groq公司自2016年起自主研发的AI推理专用处理器。其前身为张量流处理器(TSP),在大语言模型爆发后更名为LPU。2025年12月24日,NVIDIA宣布以约200亿美元获得Groq的LPU技术非排他性授权及核心团队,包括创始人Jonathan Ross和总裁Sunny Madra,这是NVIDIA有史以来最大规模的AI相关交易。

LPU的核心设计理念可以用"确定性流水线"来概括。与GPU的多核并行、动态调度架构不同,LPU采用单核设计,将数百兆字节的SRAM直接集成在芯片上作为主存储(而非缓存),配合编译器驱动的静态调度,实现完全确定性的执行流程。每个时钟周期的操作都由编译器预先规划,消除了GPU架构中常见的调度延迟和资源争用。

1.2 LPU核心技术参数

技术参数

LPU v1

LPU v2(规划中)

制程工艺

GlobalFoundries 14nm

Samsung 4nm

芯片面积

25×29mm(~725mm²)

~225mm²(估算)

片上SRAM

230MB

更大容量(未公布)

片上带宽

80TB/s

>80TB/s

INT8算力

750 TOPS

显著提升

FP16算力

188 TFLOPS

显著提升

外部HBM

无,完全不依赖

散热方案

风冷

风冷

时钟频率

900MHz

更高

数据来源:Groq官方文档、SemiAnalysis、IntuitionLabs研究

1.3 LPU的性能优势与定位

LPU的核心优势在于超低延迟推理。独立测试机构Artificial Analysis的基准测试显示,Groq的LPU在Llama 3 8B模型上实现了877 tokens/s的吞吐量,在Llama 3 70B上达到284 tokens/s,约为当时最快GPU方案的2倍。Groq官方声称,LPU在Llama 2 70B上可实现300 tokens/s的单用户生成速度,较NVIDIA H100集群快10倍。

这种极致性能来源于SRAM的根本性优势:片上SRAM的访问速度约为HBM的20倍(能耗仅为HBM的1/20——0.3 pJ/bit vs 6 pJ/bit),且无需经过复杂的缓存层级和动态调度,数据可以在计算单元之间以全速流动。这使得LPU在生成式AI的"逐token解码"场景中具有GPU无法企及的延迟优势。

但LPU并非万能。SRAM的单位面积成本远高于DRAM,相同容量需要5-10倍的芯片面积,这从根本上限制了其可扩展性。一颗LPU v1芯片仅有230MB的SRAM,而一颗H100 GPU配备了80GB的HBM——容量差距达到350倍。这意味着运行大型模型需要数百颗LPU芯片协同工作,这正是Groq开发同步芯片间互联协议的原因。

二、SRAM与HBM:互补而非替代

2.1 两种存储技术的本质差异

对比维度

SRAM(LPU方案)

HBM(GPU方案)

位置

片上集成

片外堆叠,通过CoWoS封装

带宽

~80TB/s(片上)

~1.2TB/s/stack(HBM3e)

延迟

亚纳秒级

纳秒级

能效

~0.3 pJ/bit

~6 pJ/bit

容量/芯片

~230MB

16-36GB/stack(HBM3e)

面积效率

低(6T SRAM单元较大)

高(DRAM 1T1C单元)

成本/GB

极高

高(但远低于SRAM)

封装需求

标准封装,无需CoWoS

需要CoWoS/先进封装

最佳场景

推理解码(低延迟、小批量)

训练+推理预填充(大批量、高吞吐)

数据来源:Vik's Newsletter、SemiAnalysis、Groq技术白皮书

2.2 AI推理的双重硬件问题:预填充与解码

理解LPU对存储产业的影响,关键在于认识到AI推理并非单一任务,而是由两个截然不同的计算阶段组成。预填充(Prefill)阶段负责处理用户输入的全部token,这是一个计算密集型任务,需要大量并行矩阵乘法,GPU(配合大容量HBM)在此环节具有绝对优势。解码(Decode)阶段负责逐个生成输出token,这是一个内存带宽受限的顺序任务——计算核心频繁等待从HBM读取数据,导致GPU利用率低下,而SRAM的超高带宽在此环节具有天然优势。

NVIDIA收购Groq的战略意图,正是为了补全其在推理解码环节的架构短板。在收购前,NVIDIA的解码方案同样基于HBM,存在内存带宽瓶颈。Groq的LPU技术使NVIDIA获得了控制芯片内部数据流的能力——这在精神上类似于TPU的脉动阵列——从而在解码任务上实现质的飞跃。市场预期NVIDIA将在GTC 2026上发布基于Groq技术的专用解码芯片(市场暂称"LPX"),与GPU形成预填充+解码的分离式推理架构。

2.3 黄仁勋的明确表态:SRAM不会吃掉HBM的午餐

面对市场对SRAM替代HBM的恐慌,NVIDIA CEO黄仁勋已多次公开澄清。韩国独立研究机构KIS在分析中指出:认为SRAM推理芯片会减少HBM用量,反映了对存储技术的理解不足。SRAM的单元面积是DRAM的5-10倍,相同容量所需芯片面积远大于DRAM,这从物理层面决定了SRAM无法替代HBM在大容量场景中的地位。

更重要的是,从系统层面看,SRAM解码芯片的引入实际上增加了AI系统的总存储需求。在分离式推理架构中,GPU仍需HBM来处理预填充任务和存储KV缓存,而LPU芯片则额外消耗大量SRAM。NVIDIA的Dynamo编排系统负责在预填充GPU和解码LPU之间调度KV缓存的移动,并在缓存超出当前层级时将其驱逐到上下文存储中。这意味着整个推理系统对存储的总需求是扩大而非缩减的。

三、对存储产业的具体影响分析

3.1 HBM市场:超级周期逻辑不改

全球HBM市场正处于前所未有的超级周期中。据美国银行(BofA)预测,2026年HBM市场规模将达到546亿美元,同比增长58%。高盛预测,定制ASIC AI芯片对HBM的需求将暴增82%,占市场总量的三分之一。SK Hynix的HBM产能已预售至2026年底,Micron和三星的情况类似。

LPU的出现不但不会削弱HBM需求,反而可能因推理效率的提升而加速AI部署规模的扩大,间接带动更多GPU(及其配套HBM)的采购。从NVIDIA的产品路线图看,HBM容量从A100的80GB HBM2E到Rubin Ultra的1024GB HBM4E,呈指数级增长趋势。现代AI遵循一种"内存帕金森定律"——神经网络架构会不断膨胀以占满一切可用的HBM容量。

HBM4已进入量产阶段,SK Hynix和三星均将生产计划提前至2026年2月。HBM4的数据传输速度达到11Gbps,总带宽超过2.8TB/s,并首次引入使用先进制程制造的逻辑基础层(base die)。UBS预测SK Hynix将在2026年NVIDIA Rubin平台的HBM4市场中占据约70%的份额。16层HBM堆叠(HBM4E)预计将在2026年Q4交付,但从12层到16层的技术跨越——晶圆厚度需从50微米降至30微米——被业内描述为"极具挑战性"。

3.2 SRAM市场:新增量空间打开

LPU架构的规模化部署将创造显著的SRAM增量需求。以Groq的GroqRack为例,部署一个能够运行70B参数模型的系统需要数百颗LPU芯片,每颗芯片集成230MB SRAM,整个系统的SRAM总量远超传统芯片设计。如果NVIDIA将LPU技术整合进其产品线并大规模生产,SRAM的需求量将出现结构性跃升。

值得关注的是,SRAM正在AI芯片中获得更广泛的应用。台积电的CIM(存内计算)芯片正越来越多地用SRAM替代部分DRAM功能。联发科天玑9500的超高效NPU也采用了存内处理架构,让AI模型能够持续驻留在SRAM中运行。SRAM EDA工具供应商iSTART指出,嵌入大量SRAM的ASIC架构正在逐步涌现。这一趋势并不取代HBM,而是在AI芯片的存储层级中增加了一个新的、高价值的需求层。

3.3 DRAM与NAND:涟漪效应

HBM生产对常规DRAM的挤出效应已经十分显著。每GB HBM消耗的晶圆产能约为DDR5的3倍,SK Hynix和三星已将高达40%的先进晶圆产能转向HBM生产。这导致常规DDR5和LPDDR5出现结构性供应紧张,三星已将合约价格上调30%-60%。分析师预计DRAM价格将在2026年上半年继续上涨40%-50%。

在NAND闪存方面,AI数据中心对高性能SSD的需求持续增长。AI推理对数据预处理、模型加载、checkpoint存储和KV缓存溢出都需要大容量、高带宽的存储支持。LPU架构的Dynamo编排系统在KV缓存超出SRAM和HBM容量时,需要将其驱逐到NVMe SSD等上下文存储层,这为企业级SSD创造了新的需求场景。Pure Storage等存储厂商已明确指出,LPU推理引擎需要足够快的共享和扩展数据存储架构来匹配其处理速度。

四、存储市场量化分析与预测

4.1 全球AI存储市场规模预测

细分市场

2024(实际)

2025(预估)

2026E

2028E

CAGR

HBM

$16B

$35B

$55B

$100B

~58%

服务器DRAM

$30B

$45B

$65B

$90B

~32%

企业级SSD

$18B

$25B

$35B

$50B

~29%

AI SRAM

~$1B

~$2B

$5B+

$15B+

>70%

数据来源:BofA、Goldman Sachs、WSTS、TrendForce,综合整理及估算

4.2 存储产业链竞争格局变化

HBM领域的竞争格局正在经历深刻变化。SK Hynix凭借与NVIDIA的紧密合作,在2025年Q2首次超越三星成为全球DRAM营收第一,HBM市场份额达到62%。三星CEO全英铉在新年讲话中承认"客户表示三星回来了",但仍在追赶。Micron虽仅占11%的HBM市场份额,但其HBM3E产品已获NVIDIA认证,2025年Q4录得创纪录的113亿美元季度营收,随后宣布退出Crucial消费品牌以释放晶圆产能给战略客户。

SRAM方面,随着LPU架构的推广,SRAM设计工具和IP供应商将成为新的受益者。台积电作为SRAM制造的主要代工厂,其先进制程的SRAM密度和良率将成为LPU芯片竞争力的关键变量。值得注意的是,当Groq v1使用GlobalFoundries 14nm制程时,SRAM面积占据了芯片的绝大部分空间;迁移到三星4nm后,相同容量的SRAM面积可缩小约70%,或在相同面积上集成数倍的SRAM容量。

五、投资机会梳理

5.1 全球核心标的分析

公司

市场/代码

核心逻辑

LPU相关影响

SK Hynix

KRX: 000660

HBM全球份额62%,NVIDIA核心供应商

短期情绪扰动,长期HBM需求不减反增

三星电子

KRX: 005930

HBM4追赶中,4nm代工Groq v2

双重受益:存储+代工,估值修复空间大

Micron

NASDAQ: MU

HBM3E量产,退出消费专注AI

AI存储纯度最高的美股标的

NVIDIA

NASDAQ: NVDA

GPU+LPU双引擎,推理市场垄断者

LPU整合成功将巩固推理市场霸主地位

台积电

NYSE: TSM

SRAM制造核心代工厂,先进封装龙头

CoWoS+SRAM代工双重受益

Sandisk

NASDAQ: SNDK

NAND闪存龙头,AI边缘存储

KV缓存溢出到SSD,企业级SSD需求上升

注:以上分析仅供参考,不构成投资建议。

六、风险提示与投资策略

6.1 主要风险因素

市场情绪风险:LPU相关消息已导致存储股出现剧烈波动。GTC 2026大会前后,NVIDIA若发布基于LPU技术的新产品,短期内可能再度引发市场对"SRAM替代HBM"的恐慌性抛售。建议投资者利用情绪波动逢低布局存储核心标的。

技术路线不确定性:虽然NVIDIA已获得Groq的技术授权,但LPU架构的大规模商用仍面临挑战。Groq的编译器复杂度极高,大模型的编译优化需要大量工程投入。此外,LPU v2芯片的量产进度(三星4nm代工)、GroqRack的系统良率、以及与NVIDIA现有软件栈(CUDA/TensorRT)的整合效率,都是需要持续跟踪的风险点。

竞争替代风险:AMD、Broadcom、以及众多AI推理初创公司也在积极开发专用推理芯片。d-Matrix的Corsair PCIe卡据称可提供150TB/s的SRAM带宽,Cerebras、SambaNova等公司也有各自的解决方案。如果竞争方案在成本效率上优于LPU,NVIDIA的投资回报可能不及预期。

存储周期回落风险:虽然当前存储超级周期受AI结构性需求驱动,但历史上存储行业从未摆脱周期性规律。三星、SK Hynix和Micron正在大规模扩产——三星计划2026年扩产50%,SK Hynix宣布了价值5000亿美元的四座新工厂计划。如果新产能在2027-2028年集中释放,可能导致供过于求和价格回落。

6.2 投资策略建议

核心持仓策略:维持对HBM三大供应商(SK Hynix、三星、Micron)的"增持"评级。LPU的出现不改变AI训练和推理预填充对HBM的刚性需求,反而通过加速AI部署规模扩大间接利好HBM。建议在市场因LPU消息恐慌性抛售时逢低加仓。SK Hynix当前处于HBM4量产领先地位,是确定性最高的标的。

增量配置策略:关注SRAM和CIM赛道的新兴投资机会。SRAM EDA工具、SRAM IP设计、以及大面积SRAM芯片的代工和封测环节,都将受益于LPU架构的规模化。台积电作为先进制程SRAM的核心代工厂,以及三星作为Groq v2芯片的代工方,都具有双重受益逻辑。

对冲策略:配置AI数据中心存储全链条。在HBM、服务器DRAM、企业级SSD三个层级分散布局,以对冲单一技术路线的波动风险。AI推理系统对存储的需求是分层的、多元的——从SRAM(微秒级)到HBM(纳秒级)到DDR5(毫秒级)再到NVMe SSD(微秒级),每一层都有对应的投资机会。

七、结论

NVIDIA以200亿美元收购Groq的LPU技术,是AI芯片产业从"通用计算"向"专用计算"演进的标志性事件。LPU的SRAM架构为AI推理的解码环节提供了革命性的低延迟解决方案,但这并不意味着HBM时代的终结——恰恰相反,推理市场的架构分化意味着AI系统对存储的总需求在扩大而非缩减。

从产业链视角看,我们正进入一个"SRAM+HBM+DRAM+NAND"多层级存储协同的新时代。每一层存储都有其不可替代的物理优势和应用场景,而AI工作负载的复杂性和规模的爆发式增长,确保了每一层都将享受持续的需求拉动。存储超级周期的底层逻辑不仅未被动摇,反而因推理架构的多样化而进一步加固。

对于投资者而言,LPU带来的短期市场恐慌恰恰是布局存储赛道的战略性窗口。我们建议:核心持仓锁定HBM三巨头(SK Hynix为首选),增量配置关注SRAM/CIM生态和先进封装环节,对冲配置覆盖企业级SSD和存储接口芯片。在AI算力投资从训练向推理加速倾斜的大趋势下,存储产业链将是未来三年最具确定性的科技投资主线之一。

免责声明:本报告仅供参考,不构成任何投资建议。报告中的信息来源于公开资料整理,作者不对信息的准确性和完整性做出任何保证。投资者据此操作,风险自担。市场有风险,投资需谨慎。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON