推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机型号  减速机  履带  带式称重给煤机  链式给煤机  无级变速机 

AI PC白皮书之一(Micron | Lenovo)

   日期:2026-02-08 09:05:59     来源:网络整理    作者:本站编辑    评论:0    
AI PC白皮书之一(Micron | Lenovo)

内存与其他硬件加速器相辅相成,是充分释放AI PC 潜能的关键支撑。

在不断发展的人工智能(AI)领域,各行业对更强大数据模型的需求推动了模型规模的快速扩张。这一高速发展态势持续提升AI 模型的体量与复杂度,对计算性能和内存子系统性能提出了前所未有的要求,以处理和整合来自文本、音频、视频等各类输入的海量数据。随着AI 技术的持续进步,先进的内存解决方案不仅对大型数据中心至关重要,对边缘设备(包括将AI 能力直接赋能个人和专业设备的AI PC)而言也不可或缺。经过优化的内存解决方案,是推动各设备和平台下一代AI 驱动创新的重要助力。

本白皮书深入探讨AI PC 的架构层面,聚焦美光与联想的合作成果。基于搭载英特尔® 酷睿™ Ultra 9 处理器 185H(曾用研发代号 Meteor Lake)的联想 AI PC,对 DDR5  LPCAMM2 两种内存解决方案展开对比分析。报告重点阐述了这两种内存方案在实际 AI 工作负载下的性能指标、功耗节省效果及能效表现;同时,基于搭载英特尔 ® 酷睿™ Ultra 7 处理器 165U 的仁宝平台,测试并分析了单双通道内存的优劣,以及更高内存容量在各类 AI 工作负载中的优势。这份全面的分析揭示了不同内存解决方案对 AI PC 发展的影响与塑造作用,研究结果可为系统和产品架构师,以及原始设备制造商(OEM)、原始设计制造商(ODM)等核心 PC 行业从业者提供宝贵参考,助力其为自身平台选择并整合最优的内存子系统,为客户打造极致的 AI PC 使用体验。

推理速度提升 20%

在搭载中央处理器(CPU)、集成显卡(iGPU)和神经处理单元(NPU)的系统上运行 AI 推理时,16GB+16GB 双通道 DDR5 配置的推理速度平均比 32GB 单通道 DDR5  20%

功耗降低 85% 以上

在各类基准测试中,LPCAMM2 CPUiGPU  NPU 全场景下的功耗比 DDR5 低约 85%。因此,LPCAMM2 的能效远超 DDR5,其内存子系统的能效(每瓦性能)最高可提升 7 倍。

AI PC 需配备16GB 以上内存

32GB 及以上的内存容量能有效避免内存不足错误,防止系统触发内存交换机制—— 该机制会导致系统运行速度下降多达50%LPCAMM2 最高可支持 64GB 容量,为适配未来的高级模型做好了准备。

一、引言

在充满活力的 AI 领域,AI PC 平台的问世是一次重大的技术飞跃。这类平台通过实现本地数据处理,彻底革新了PC 处理复杂计算任务的方式,不仅提升了性能、增强了数据隐私与安全保护,还降低了延迟和网络拥塞,为用户带来更优质的使用体验。正如个人电脑、移动设备、云计算等过往的技术创新改变了我们生活的方方面面,近期生成式AI 的爆发式发展正推动各技术领域迎来前所未有的创新,AI PC 的诞生便是其中之一。

什么是 AI PC

AI PC 是一款将AI 处理能力直接集成到硬件和软件中的计算设备。与传统PC 依赖应用软件或云服务完成AI 任务不同,AI PC搭载了专用的 AI 处理器或加速器,可通过本地执行矩阵运算实现 AI 功能。

相较于普通笔记本电脑,AI PC 具备多项性能优势,核心原因在于其搭载了针对AI 任务的专用硬件,能够本地处理面部识别、生物特征认证等敏感用户数据,保障数据隐私。二者的核心差异如下:

异构计算架构AI PC 采用异构计算架构,融合了 CPU、集成 GPU  NPU。其中 NPU  AI 任务提供专用硬件加速,能效(每瓦性能)表现卓越,相关数据将在后续章节展示。

本地 AI 处理AI PC 可本地运行 AI 模型,性能表现更优,减少了对云服务的依赖。这不仅降低了数据传输过程中的被拦截风险,还提升了隐私保护水平;而未搭载NPU 的普通笔记本电脑,本地AI 处理能力十分有限。

端侧 AI 加速器AI PC 针对 AI 应用进行了优化,处理速度更快,能更高效地完成复杂 AI 任务。其搭载的 NPU 专为矩阵乘法和卷积运算设计 —— 这两种运算是 AI 和机器学习的基础。NPU 利用并行处理阵列同时执行多项运算,在提升性能的同时降低功耗,还能为 CPU 分担负载,使其专注于通用计算任务,也能让 iGPU 更好地完成视频剪辑、游戏等场景的复杂图像渲染工作

高能效表现:凭借专用的硬件加速器,AI PC 在视频增强、图像识别等任务中具备更高的能效;而通用 CPU 在执行这类任务时效率较低,普通笔记本电脑因缺少该类加速器,运行 AI 工作负载时的能效表现不佳。

专属软件生态AI PC 的软件生态针对 AI 应用和框架进行了优化,支持实时语言翻译、增强型视频会议等内置 AI 功能;而普通笔记本电脑的软件生态为通用型,内置 AI 功能十分有限。

强化的安全防护:搭载 AI 安全系统的 AI PC 能实时分析行为和模式数据,识别恶意软件、网络钓鱼等潜在威胁,全面提升系统安全性。

对普通用户而言,AI PC 带来了更优的性能、更强的安全性、更好的隐私保护和更高的能效。传统PC 需将数据传输至云端完成AI 任务,易受网络拥塞影响,而 AI PC 可本地处理这些任务,彻底改变了用户的 AI 应用使用体验。专业人士,尤其是创意和技术领域的从业者,能借助 AI PC 强大的端侧 AI 能力提升工作效率、保障数据隐私,并简化复杂工作流程。例如,作家和内容创作者可利用本地生成式 AI 优化文章措辞、快速头脑风暴。

 1AI PC 架构示意图

内存美光 9600 MT/s LPDDR5X,容量 16GB  64GB,集成 SPDPMIC 芯片,性能强劲且便携性优异,可在任务执行期间存储全部工作负载数据。

CPU配备内存控制器,虽非为AI 任务设计,但负责处理通用计算,对系统整体性能至关重要。

iGPU主要为图形处理设计,也可实现AI 加速,但单位性能的功耗高于NPU。

NPU作为加速器提升矩阵乘法、卷积等AI 任务的处理速度,处理的数据集规模小于GPU,专为 AI 任务的高能效运行优化。

二、AI 应用场景

以下几类 AI 应用在 AI PC 上运行时,性能能得到显著提升。借助 AI PC 更强的处理能力、更低的延迟(数据本地处理,无需上传云端)和更高的能效,这些应用无论在个人还是专业场景,即使在移动状态下也能发挥重要作用。

实时语言翻译AI PC 可本地实现实时语言翻译,无需依赖网络云服务,翻译速度更快、准确率更高。

增强型视频会议AI PC 能为视频会议提供实时背景虚化、降噪、智能取景等功能,提升会议体验。

内容创作AI PC 非常适合视频剪辑、图像增强、自动化内容生成等内容创作任务,其专用硬件能让这些任务的处理效率大幅提升。

语音转文字AI PC 可实现实时语音转文字,适用于会议、讲座等需要快速准确转录的场景。

安全应用AI PC 可本地运行网络钓鱼检测、恶意软件分析等安全应用,提升安全防护水平和隐私保护能力。

AI 助手AI PC 可本地部署 AI 助手,在日程安排、提醒、信息检索等任务中表现出更优的性能和响应速度。

高级数据分析AI PC 能更高效地完成复杂数据分析任务,是金融、医疗、科研等领域从业者和相关应用的理想选择。

三、神经处理单元(NPU

 NPU 集成到 PC 中是计算领域的一项重大进步,不仅让 AI 任务的处理更高效,还为全新的 AI 驱动应用和功能的诞生奠定了基础。大多数用户对 PC 中的 CPU  GPU 并不陌生:CPU 专为通用计算任务设计;而 GPU(包括集成 GPU)搭载了大量专用计算核心,可同时执行多项运算,聚焦性能表现,这一架构使其非常适合图像处理、图形渲染和AI 计算。

与之不同,NPU 是专为高效处理 AI 和机器学习运算设计的处理器,能最大化能效(每瓦性能),非常适合需要持续处理且不希望过度消耗电池的任务。凭借优异的能效,NPU能在移动 AI 设备中提供强大的 AI 能力,同时提升设备整体性能。这意味着,设备仅依靠电池供电就能高效处理 AI 任务,用户无需连接电源即可使用各类高级 AI 功能。

 2CPUNPUGPU 处理 AI 任务的相对速度

速度排序CPU(慢)< NPU(中)< GPU(快)

性能、功耗与能效的关系

 AI 任务计算中,NPU 的速度快于 CPU,但不及 GPU;不过 NPU 的功耗远低于 GPU,能效表现突出,非常适合需要持续处理的 AI 应用,尤其适用于无网络连接的工作场景。此外,NPU 负责处理 AI 相关任务时,能释放 CPU  GPU 的算力,使其专注于自身核心任务,从而提升系统整体性能。综上,NPU  GPU 形成互补,为 AI 任务提供了更高效的能效解决方案,助力 AI PC 实现更优的系统整体性能和更长的续航时间。

NPU 架构概述

NPU 是一款专为加速神经网络计算设计的专用处理器,内置多个内存管理单元(MMU)、直接内存访问(DMA)引擎和乘加运算单元(MAC—— 也被称为硬件加速模块,可执行神经网络的核心运算:乘加运算。NPU  MAC 单元的数量决定了其并行处理能力,直接影响其性能表现(性能以每秒万亿次运算,即TOPS 为单位)。了解影响TOPS 指标的各项参数,是深入理解NPU 性能的关键。

TOPS 的计算以每秒运算次数(OPS)为基础:一次乘法运算和一次累加运算各计为 1 次操作,因此每个 MAC 单元每时钟周期可完成 2 次操作。由此可得,OPS 等于 MAC 单元数量的 2 倍乘以其工作频率,最终将 OPS 除以 1 万亿,即可转换为 TOPS

计算公式TOPS = (2 × MAC 单元数量 × 工作频率) ÷ 1 万亿

MAC 单元数量

一次乘加运算包含两个核心操作:乘法运算,以及向累加器的加法运算。每个MAC 单元每时钟周期可执行一次乘法和一次加法,实际每时钟周期完成 次操作(即上述TOPS 公式中的系数 2)。不同 NPU  MAC 单元数量固定,且可根据架构设计支持不同精度的运算。

工作频率

频率指 NPU 及其 MAC 单元(包括 CPUGPU)的时钟速度,即每秒时钟周期数,直接影响设备整体性能。频率越高,单位时间内可执行的运算越多,处理速度也就越快;但提升频率会导致功耗和发热量增加,可能对设备续航和用户体验产生负面影响。处理器的TOPS 值通常以峰值工作频率为基准标注。

内存与令牌生成

当数据集和模型参数规模超出片上内存容量时,NPU需依靠外部内存进行存储。NPU针对矩阵乘法做了优化,在 AI 和机器学习应用的初始令牌生成中表现尤为出色。根据功耗和延迟要求,后续的令牌处理和生成任务可由多个 CPU 核心与 NPU 协同完成。

 3NPU 架构示意图

核心组件DRAMNPU 控制器、MMUDMA、向量引擎、并行计算模块、计算引擎、MAC 阵列、推理引擎;

核心功能:矩阵乘法、卷积运算。

英特尔 ® 酷睿™ Ultra 9 处理器 185H  NPU  AI 能力直接集成到芯片中,兼容英特尔 ®OpenVINO™工具套件等标准化编程接口,采用多引擎架构,包含两个神经计算引擎:推理引擎和向量引擎

向量引擎:用于 NPU 的并行计算,提升运算效率和性能;

推理引擎:执行矩阵乘法、卷积等高层级计算工作负载,减少数据移动,专注于固定功能运算。

 4:硬件引擎与外部内存架构

外部内存总容量16GB/32GB

内存类型DDR5 5600  LPCAMM2 7500

核心架构:片上系统(SOC)集成内存控制器,CPUiGPUNPU 共享外部内存。

在统一内存架构中,NPUiGPU  CPU 共享系统内存,所有处理单元(CPUGPUNPU)共用主内存。该架构灵活性高,但当多个计算单元同时从内存读取数据时,有限的内存带宽易引发性能瓶颈。因此,设计支持更高带宽的内存系统,是实现异构计算平台最优系统性能的关键。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON