
AI 对 HBM、DRAM、NAND 及 SRAM 需求的提振
随着 AI 的发展,存储芯片已从传统的系统配套组件转变为决定算力系统性能与经 济性的核心战略资产。人工智能基础设施的快速扩张,正在重塑高带宽内存(HBM)、 动态随机存取存储器(DRAM)、闪存(NANDFlash)以及静态随机存取存储器(SRAM) 的需求曲线。 HBM 是通过 3D 封装技术将多个 DRAM 芯片垂直堆叠在一起的先进存储器,专为 AI 芯片提供极高的数据吞吐量并有效降低功耗。HBM 是一种通过 3D 封装技术将 多个 DRAM 芯片垂直堆叠在一起的先进存储器,HBM 技术的工作原理是将存储芯 片垂直堆叠,从而缩短数据传输距离,同时实现更小的尺寸,专为高级 GPU 和 AI 芯片提供极高的数据吞吐量并有效降低功耗。TSV(Through-Silicon Via,“硅通孔” 或“穿透硅槽”)允许多个 HBM DRAM 芯片直接连接,从而提高整体内存带宽。
动态随机存取存储器(DRAM)是计算机和智能手机中最常见的系统主存,它利用 电容内存储的电荷来代表数据,因为电容会自然漏电,所以需要系统定期“刷新”才 能维持数据不丢失。 SRAM 读写速度极快,但成本高、容量小。在计算机系统中,DRAM 通常与 SRAM (静态随机存取存储器)进行分工配合。SRAM 是一种利用内部触发器结构来存储 数据的易失性内存,只要不断电数据就不会丢失且无需定期刷新,其读写速度极快, 但成本高、容量小。
闪存(NAND Flash)是一种断电后仍能安全保存数据的非易失性存储技术,凭借其 极高的存储密度和较低的单位成本,成为了固态硬盘(SSD)、U 盘以及智能手机内 部大容量存储空间的核心。非易失性指的是断电后数据不丢失,由浮栅或电荷捕获 结构锁定电荷实现。高密度则得益于 3D 堆叠技术的不断进化,这种结构像“盖大楼” 一样将存储单元垂直堆叠,在极小的芯片面积内实现 TB 级的容量(目前已突破 200 层)。低成本则是通过 TLC(三层单元)或 QLC(四层单元)技术,在单个单元存 储更多位,大幅降低单位存储价格。
SRAM、DRAM、HBM,不同存储芯片的核心区别在于离计算核心的距离以及造价 成 本 。 从 存 储 的 冷 热 数 据 的 排 序 来 看 , 数 据 由 热 到 冷 的 排 序 是 SRAM>HBM>DRAM>NAND。
在 AI 数据中心里,不同“温度”的数据,会根据其使用频率,被存放在不同成本 的存储芯片中。一些内存技术用于提高容量,而另一些则用于提高性能,不同存储 芯片通过改变单位容量的带宽来实现不同的每比特成本。金字塔顶端的存储器提供 更高的吞吐量和更低的单位容量延迟,但单位容量成本也更高。随着层级向下延伸, 系统需要承受数量级的延迟增加,才能以合理的成本提供更高的容量。然而,这种 层级递进的另一个副作用是每比特访问的能耗显著增加。能耗的增加既源于存储器 技术本身,也源于数据从存储器到处理单元的传输。
热数据是 AI 正在高频使用、一刻也离不开的数据。例如大模型最核心的运行逻辑 (Weights)以及正在与用户交互的实时对话记忆(活跃的 KVCache)。热数据极少 部分最核心的指令放在 SRAM,绝大部分热数据存放在 HBM 中。
温数据是访问频率中等的数据。比如用户开启了一个对话窗口但去喝咖啡了,暂时 挂起的对话;或者某些调用频率不高的模型参数。在 AI 运作过程中,温数据从昂 贵的 HBM 中被转移出来,下放到普通的 DRAM 中,或者高性能的企业级固态硬盘 (eSSD)里。 冷数据是极少访问的海量数据。比如用户半年前的聊天记录备份,或者 AI 用于早 期训练的原始语料库。冷数据一般被存放在大容量、低成本的 NAND 闪存或机械硬 盘(HDD)中。 KVCache(键值缓存)是大语言模型在对话时产生的一种临时数据。当大语言模型 (LLM)与用户聊天时,LLM 需要记住用户之前说过的话(上下文),为了避免每 次回答用户都要把之前的聊天记录从头到尾重新计算一遍,大模型会把处理过的历 史对话提取成“特征值”保存下来。这份“用空间换时间”的会议记录数据,就是 KVCache。 以用户日常应用 Chatbot 为例,假设 100 万 Token 是“日积月累的聊天记录”,且每 一次实际调用的活跃窗口是 10 万 Token,不同使用环节所需要的存储器如下:
(1)过去的 90 万 Token 是历史聊天记录,属于冷数据,被存放在 NAND 中,它 们不再是极其占用显存的 KVCache,而是退化成了最普通的“文本字符串日志”, 类似于用户手机微信里的聊天记录文件。这些数据会被打包存放在云厂商数据中心 的 NAND 闪存(企业级 eSSD)或机械硬盘(HDD)的底层数据库中。只要用户不 主动把半个月前聊的 90 万 token 重新复制粘贴到对话框里,或者不点击“加载历史 对话”,大模型在回答用户今天的问题时,不会去读取这 90 万 Token。因此,它们 不需要被装进服务器的 DRAM,而是被装在最便宜的 NAND 硬盘里。 (2)当前活跃对话 10 万 Token 将被存放在 HBM 中。当用户今天打开一个新窗口, 或者在一个现有的窗口里继续聊,这当前涉及的 10 万 Token,才会被大模型实时转 化为庞大的 KVCache,并被装进计算卡旁边的 HBM 里。核心逻辑是模型今天只针 对这 10 万 Token 进行“全量扫描”和“疯狂回看”。如果中途用户去喝咖啡挂起了 对话,暂时切出网页时,这 10 万 Token 对应的 KVCache 会被暂时下放到 DRAM, 作为温数据缓冲;等用户回来继续聊,再瞬间拉回 HBM。 模型训练阶段,AI 研究员将海量的标记或未标记数据输入算法中,这要求存储器必 须具备极高的并行读写带宽,以防止计算单元因等待数据而处于闲置状态。因此, 训练集群对HBM和DRAM的需求呈现出爆发式增长。HBM通过3D硅通孔(TSV) 技术与 GPU 进行 2.5D 共封装,能够提供超越传统 DDR 内存数十倍的带宽。 此外,训练过程中需要频繁保存模型切片(Checkpoints)和处理海量预训练数据, 这极大地提振了对高容量、高顺序写入吞吐量的企业级 SSD(基于 NAND Flash) 的需求。
模型推理阶段中,延迟、并发与上下文缓存(KVCache)随着大语言模型(LLM) 的商业化落地,AI 产业的重心正迅速从训练转向推理。 推理阶段分为两个核心子过程:预填充(Prefill)与解码(Decode)。预填充阶段主 要处理用户输入的提示词(Prompt),属于计算密集型;而解码阶段则是逐个生成 Token,这一过程需要反复读取键值缓存(KVCache),属于典型的“内存带宽受限 型”负载。为了实现极低的生成延迟,推理系统较为依赖 SRAM 和 HBM。 同时,随着检索增强生成(RAG)技术和超长上下文(Long-context)推理的普及, AI 需要从外部向量数据库中进行海量、高并发的小文件随机读取,这直接推动了高 速企业级 NAND SSD(特别是高密度 QLCSSD)的爆发式需求。
大模型浪潮下,AI 模型的参数量、训练数据量以及计算资源需求呈指数级增长,产 业关注点已从单一芯片的计算能力急剧转向系统级的整体性能。在这种系统级性能 瓶颈中,“内存墙(MemoryWall)”问题空前凸显。无论是大规模语言模型(LLM) 的训练,还是对延迟极度敏感的推理任务,数据传输的带宽、容量与延迟已成为制 约 GPU 等加速器算力释放的最核心障碍,HBM 和 DRAM 的重要性凸显。
HBM 需求弹性最大、一季度合约价环比暴涨了 50%~55%
报告全文可扫描下方图片二维码进入星球社群查阅下载

(报告来源:东北证券。本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



