四、内存子系统的作用
前文强调,处理 AI 工作负载需要更强的计算能力,同时端侧 AI 推理的硬件加速器也在不断发展;但随着计算性能的提升,内存性能对实现系统整体性能的重要性也愈发凸显。大多数 AI 和机器学习的实际应用场景中,会同时运行多个针对特定任务的专用AI 模型 —— 这些模型在系统启动时被加载到主内存,并持续驻留,应用程序可根据需要调用模型完成AI 推理。大语言模型(LLM)、YOLO、Stable Diffusion 等图像/视频类 AI 模型,均需要占用大量内存空间;若频繁将这些模型在内存中调入调出,会对性能产生不利影响。
AI PC 搭载了多个处理组件,CPU、iGPU、NPU 等各加速器并行运行专用任务,且共享内存访问通道,这一特点易引发内存瓶颈,限制系统整体性能;同时,多个硬件加速器同时工作会增加系统功耗。因此,功耗和内存性能是打造AI PC 的两大核心要素。为满足AI PC 的需求,我们推出了DDR5 SODIMM、LPCAMM2 等多款模块化内存解决方案,选择合适的内存方案是实现系统最优性能和电池能效的关键。
下文将详细分析适用于AI PC 运行 AI 工作负载的内存解决方案,并通过下表对 DDR5 和 LPCAMM2 内存方案进行整体对比:
表 1:DDR5 与 LPCAMM2 对比表
对比维度 | DDR5 | LPCAMM2 |
类型 | 第五代双倍数据率内存 | 第二代低功耗压缩连接内存模块 |
适用场景 | 台式机、高性能笔记本电脑 | 轻薄本 |
速率 | 最高 5600 MT/s | 最高 7500 MT/s |
功耗 | 高于低功耗版本内存 | 工作状态下功耗比 DDR5 低 85% |
外形规格 | 小型双列直插式内存模块(SODIMM) | 比传统SODIMM更小、更薄 |
升级性 | 支持的系统中可升级 | 相比焊接式(BGA)DRAM,轻薄本中升级更便捷 |
尺寸 | 更大 | 占用空间比两根 DDR5 SODIMM 减少 64% |
基于本白皮书的基准功耗分析结果,对比LPCAMM2 与 DDR5 的功耗得出;计算基于市售双层 DDR5 SODIMM(32808 立方毫米)与 LPCAMM2(11934 立方毫米)的总体积对比。
AI 性能的衡量指标
近年来,AI 和机器学习模型发展迅速,系统流畅支持各类模型所需的计算能力也在不断变化。微软近期发布了Copilot+ PC 的相关标准,这类全新的Windows 11 AI PC 搭载的 NPU 性能需超过 40TOPS(每秒 40 万亿次运算)。以下为衡量 AI 性能的四大核心指标:
五、研究方法
要理解内存对 AI PC 整体性能的重要性,需重点分析带宽、延迟、功耗、内存配置和容量等关键性能指标,以及这些指标在 DDR5、LPCAMM2 等内存方案中的表现。这些指标与异构硬件加速器的计算能力共同影响系统性能;同时,分析不同 AI 硬件加速器的内存访问模式,有助于发现内存引发的执行流水线瓶颈。
系统层面影响工作负载性能的参数繁多,本研究将内存专用参数与计算参数分开独立分析,整体分为两部分:
第一部分:片上系统(SOC)计算能力对内存的影响
DDR5 与 LPCAMM2 在 CPU 下的性能对比; DDR5 与 LPCAMM2 在 NPU 下的性能对比。
第二部分:内存配置的影响
- 单通道与双通道的对比;
16GB 与 32GB 容量的对比。
为全面评估内存解决方案和AI 加速器的性能,本研究选取了以下几类工作负载开展测试:
表 2:基准测试与工作负载表
类别 | 测试目的 | 工作负载/基准测试工具 | 硬件加速器 |
通用工作负载 | 测试办公生产力、视频通话、网页浏览等通用工作负载的性能⁹ | UL公司 PCMark® 10 基准测试 | CPU |
AI 工作负载 | 测试各类架构模型在CPU上运行的 AI / 机器学习工作负载性能 | Geekbench ML、AIMark | CPU |
AI 工作负载 | 评估不同硬件加速器下AI 和机器学习模型的性能 | Procyon® AI 推理基准测试 | CPU、GPU、NPU |
AI 工作负载 | 分析涉及大量数据读写、需占用较大内存空间的内存密集型 AI 应用场景 | Meta Llama 3 8B、Mistral 7B Instruct | CPU、GPU |
测试系统搭建
功耗测量搭建
部分软件工具可估算DRAM 功耗,但要获取精准数据,需搭建专用的硬件测试环境。本研究采用NI DAQ-6255 数据采集工具(16 位模拟输入分辨率,8 微秒采样间隔)监测 DRAM 供电,并将 DRAM 模块下方中介板的 DRAM 供电(VDDQ、VDD1、VDD2)引脚连接至数据采集工具。测试前后的完整性验证表明,这些硬件改造未对性能和功耗产生任何影响。

图 5:测试平台搭建示意图
核心组件:搭载功耗测量工具的主机、UL 功耗波形采集工具、美国国家仪器(NI)数据采集工具、被测设备(DDR5/LPCAMM2)、USB、DRAM 供电(VDDQ、VDD1、VDD2)
注:本研究对比了双通道配置下,5600MT/s DDR5 和 7500MT/s LPCAMM2 在系统默认速率下的功耗。
为测量 DRAM 功耗,本研究在主板的 VIN_BULK(5 伏电源,为两种内存供电)处搭建功耗测量装置,并通过串联分流电阻,根据电压降计算流经内存模块的电流,最终通过 “性能得分 ÷ 内存功耗” 计算内存能效。
硬件规格
下表为本次研究所有测试平台采用的通用硬件规格:
表 3:硬件规格表
处理器系列 | 时钟速度 | CPU/GPU/NPU 配置 | 核心/线程数 | 三级缓存 | 超线程 | 内存容量 |
英特尔 ® 酷睿™ Ultra 9 处理器 185H | 2300 MHz,睿频 5.1 GHz | 6 核 CPU/18 核 GPU/11TOPS NPU | 16核/ 22 线程 | 支持 | 支持 | 32GB |
表 4:实验所用内存平台
平台 | 型号 | 内存类型 | 速率等级 | 通道 | 部件号 |
联想 ThinkBook® 16 | DVSPA5CP | DDR5 | 5600MT/s | 4×32bit | MTC8C1084S1SC56BD1 |
联想ThinkPad® 笔记本 | N8D0IKMI/21KWZC48US | LPCAMM2 | 7500MT/s | 4×32bit | MTD16C20325N4FN026CY |


