推广 热搜： 采购方式甲带滤芯带式称重给煤机减速机型号气动隔膜泵无级变速机链式给煤机履带减速机

2026年电子行业海外存储深度报告:需求爆发+供给刚性,AI驱动存储新周期(附下载)

日期：2026-04-24 23:49:26 来源：网络整理作者：本站编辑评论：0

AI 对 HBM、DRAM、NAND 及 SRAM 需求的提振

随着 AI 的发展，存储芯片已从传统的系统配套组件转变为决定算力系统性能与经济性的核心战略资产。人工智能基础设施的快速扩张，正在重塑高带宽内存（HBM）、动态随机存取存储器（DRAM）、闪存（NANDFlash）以及静态随机存取存储器（SRAM）的需求曲线。 HBM 是通过 3D 封装技术将多个 DRAM 芯片垂直堆叠在一起的先进存储器，专为 AI 芯片提供极高的数据吞吐量并有效降低功耗。HBM 是一种通过 3D 封装技术将多个 DRAM 芯片垂直堆叠在一起的先进存储器，HBM 技术的工作原理是将存储芯片垂直堆叠，从而缩短数据传输距离，同时实现更小的尺寸，专为高级 GPU 和 AI 芯片提供极高的数据吞吐量并有效降低功耗。TSV（Through-Silicon Via，“硅通孔” 或“穿透硅槽”）允许多个 HBM DRAM 芯片直接连接，从而提高整体内存带宽。

动态随机存取存储器（DRAM）是计算机和智能手机中最常见的系统主存，它利用电容内存储的电荷来代表数据，因为电容会自然漏电，所以需要系统定期“刷新”才能维持数据不丢失。 SRAM 读写速度极快，但成本高、容量小。在计算机系统中，DRAM 通常与 SRAM （静态随机存取存储器）进行分工配合。SRAM 是一种利用内部触发器结构来存储数据的易失性内存，只要不断电数据就不会丢失且无需定期刷新，其读写速度极快，但成本高、容量小。

闪存（NAND Flash）是一种断电后仍能安全保存数据的非易失性存储技术，凭借其极高的存储密度和较低的单位成本，成为了固态硬盘（SSD）、U 盘以及智能手机内部大容量存储空间的核心。非易失性指的是断电后数据不丢失，由浮栅或电荷捕获结构锁定电荷实现。高密度则得益于 3D 堆叠技术的不断进化，这种结构像“盖大楼” 一样将存储单元垂直堆叠，在极小的芯片面积内实现 TB 级的容量（目前已突破 200 层）。低成本则是通过 TLC（三层单元）或 QLC（四层单元）技术，在单个单元存储更多位，大幅降低单位存储价格。

SRAM、DRAM、HBM，不同存储芯片的核心区别在于离计算核心的距离以及造价成本。从存储的冷热数据的排序来看，数据由热到冷的排序是 SRAM>HBM>DRAM>NAND。

在 AI 数据中心里，不同“温度”的数据，会根据其使用频率，被存放在不同成本的存储芯片中。一些内存技术用于提高容量，而另一些则用于提高性能，不同存储芯片通过改变单位容量的带宽来实现不同的每比特成本。金字塔顶端的存储器提供更高的吞吐量和更低的单位容量延迟，但单位容量成本也更高。随着层级向下延伸，系统需要承受数量级的延迟增加，才能以合理的成本提供更高的容量。然而，这种层级递进的另一个副作用是每比特访问的能耗显著增加。能耗的增加既源于存储器技术本身，也源于数据从存储器到处理单元的传输。

热数据是 AI 正在高频使用、一刻也离不开的数据。例如大模型最核心的运行逻辑（Weights）以及正在与用户交互的实时对话记忆（活跃的 KVCache）。热数据极少部分最核心的指令放在 SRAM，绝大部分热数据存放在 HBM 中。

温数据是访问频率中等的数据。比如用户开启了一个对话窗口但去喝咖啡了，暂时挂起的对话；或者某些调用频率不高的模型参数。在 AI 运作过程中，温数据从昂贵的 HBM 中被转移出来，下放到普通的 DRAM 中，或者高性能的企业级固态硬盘（eSSD）里。冷数据是极少访问的海量数据。比如用户半年前的聊天记录备份，或者 AI 用于早期训练的原始语料库。冷数据一般被存放在大容量、低成本的 NAND 闪存或机械硬盘(HDD)中。 KVCache（键值缓存）是大语言模型在对话时产生的一种临时数据。当大语言模型（LLM）与用户聊天时，LLM 需要记住用户之前说过的话（上下文），为了避免每次回答用户都要把之前的聊天记录从头到尾重新计算一遍，大模型会把处理过的历史对话提取成“特征值”保存下来。这份“用空间换时间”的会议记录数据，就是 KVCache。以用户日常应用 Chatbot 为例，假设 100 万 Token 是“日积月累的聊天记录”，且每一次实际调用的活跃窗口是 10 万 Token，不同使用环节所需要的存储器如下：

（1）过去的 90 万 Token 是历史聊天记录，属于冷数据，被存放在 NAND 中，它们不再是极其占用显存的 KVCache，而是退化成了最普通的“文本字符串日志”，类似于用户手机微信里的聊天记录文件。这些数据会被打包存放在云厂商数据中心的 NAND 闪存（企业级 eSSD）或机械硬盘（HDD）的底层数据库中。只要用户不主动把半个月前聊的 90 万 token 重新复制粘贴到对话框里，或者不点击“加载历史对话”，大模型在回答用户今天的问题时，不会去读取这 90 万 Token。因此，它们不需要被装进服务器的 DRAM，而是被装在最便宜的 NAND 硬盘里。（2）当前活跃对话 10 万 Token 将被存放在 HBM 中。当用户今天打开一个新窗口，或者在一个现有的窗口里继续聊，这当前涉及的 10 万 Token，才会被大模型实时转化为庞大的 KVCache，并被装进计算卡旁边的 HBM 里。核心逻辑是模型今天只针对这 10 万 Token 进行“全量扫描”和“疯狂回看”。如果中途用户去喝咖啡挂起了对话，暂时切出网页时，这 10 万 Token 对应的 KVCache 会被暂时下放到 DRAM，作为温数据缓冲；等用户回来继续聊，再瞬间拉回 HBM。模型训练阶段，AI 研究员将海量的标记或未标记数据输入算法中，这要求存储器必须具备极高的并行读写带宽，以防止计算单元因等待数据而处于闲置状态。因此，训练集群对HBM和DRAM的需求呈现出爆发式增长。HBM通过3D硅通孔（TSV）技术与 GPU 进行 2.5D 共封装，能够提供超越传统 DDR 内存数十倍的带宽。此外，训练过程中需要频繁保存模型切片（Checkpoints）和处理海量预训练数据，这极大地提振了对高容量、高顺序写入吞吐量的企业级 SSD（基于 NAND Flash）的需求。

模型推理阶段中，延迟、并发与上下文缓存（KVCache）随着大语言模型（LLM）的商业化落地，AI 产业的重心正迅速从训练转向推理。推理阶段分为两个核心子过程：预填充（Prefill）与解码（Decode）。预填充阶段主要处理用户输入的提示词（Prompt），属于计算密集型；而解码阶段则是逐个生成 Token，这一过程需要反复读取键值缓存（KVCache），属于典型的“内存带宽受限型”负载。为了实现极低的生成延迟，推理系统较为依赖 SRAM 和 HBM。同时，随着检索增强生成（RAG）技术和超长上下文（Long-context）推理的普及， AI 需要从外部向量数据库中进行海量、高并发的小文件随机读取，这直接推动了高速企业级 NAND SSD（特别是高密度 QLCSSD）的爆发式需求。

大模型浪潮下，AI 模型的参数量、训练数据量以及计算资源需求呈指数级增长，产业关注点已从单一芯片的计算能力急剧转向系统级的整体性能。在这种系统级性能瓶颈中，“内存墙（MemoryWall）”问题空前凸显。无论是大规模语言模型（LLM）的训练，还是对延迟极度敏感的推理任务，数据传输的带宽、容量与延迟已成为制约 GPU 等加速器算力释放的最核心障碍，HBM 和 DRAM 的重要性凸显。

HBM 需求弹性最大、一季度合约价环比暴涨了 50%~55%

报告全文可扫描下方图片二维码进入星球社群查阅下载

（报告来源：东北证券。本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

我们组建了研究报告知识星球社群，加入后您可以享受以下服务：

1、星球中分享最新、专业、深度有价值的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。报告持续更新；

2、会员可以用提问方式单独获取需要的报告，满足个性化需求；

3、星球中海量研究报告PDF高清版，无限制下载；

4、4000+会员使用的研究报告宝库值得您信赖；

扫描下方二维码加入星球

业务咨询、商务合作：136 3162 3664（同微信）

温馨提示

应广大粉丝要求，「报告研究所」成立了报告交流群，欢迎各位公司、企业、投行、投资机构、政府机构、基金、创业者朋友加入！

这里能且不限于：“每日分享多篇研究报告、行业交流、报告交流、信息交流、寻求合作等......”

入群方式：添加助理微信【touzireport666】，发送「个人纸质名片」或「电子名片」审核后即可入群。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行