(这是2026年3月20日,英特尔官方发的白皮书,讲述为什么Ai 推理、Ai agent会引发cpu:gpu比率的提升,可以看一下)
.
【AI基础设施中CPU:GPU比率上升:驱动因素、趋势与影响】
.
AI基础设施正在发生转变,推理工作负载的增长和强化学习正在推动更高的CPU:GPU比率,从而增加了CPU容量在编排、仿真以及大型GPU集群高效利用方面的重要性
.
作者:Ram Varra,高级首席工程师、Sachin Ashtikar,高级首席工程师、Vipul Lal,高级首席工程师、Shesha Krishnapura,Intel院士兼Intel IT首席技术官
.
【AI推理增长正在推动更高的CPU:GPU比率】
.
随着模型规模增大以及模型在多GPU集群上运行,受CPU限制的组件必须管理通信、内存分页、互连编排和分布式调度。基于VM的部署常常因CPU-GPU协调不佳而遭受延迟,这进一步促使云平台部署更多CPU以改进分布式管道性能。来自NVIDIA、AMD和Intel的下一代GPU架构更加依赖CPU-GPU结构协调以实现最佳性能。更高的CPU:GPU比率有助于减少分布式AI系统中的网络和调度瓶颈
.
这些受CPU限制的编排任务,随着AI工作负载从训练转向全球范围内的大容量推理和代理型AI而变得更加重要
.
【比较CPU在推理与训练中的需求】
.
与推理相比,CPU在训练中扮演的角色相对较小——这突显了推理工作负载需要更高的CPU:GPU比率
.
主要瓶颈:训练:GPU/加速器用于前向和反向传播(CPU作为次要瓶颈);推理:CPU侧请求处理以及预/后处理,用于更高的GPU/CPU推理内核
.
典型CPU比率趋势:训练:较低的CPU:GPU比率;推理:较高的CPU:GPU比率
关键CPU任务:训练:数据加载、数据增强、编排、日志记录和分布式训练控制;推理:许多服务和线程每加速器,外加纯CPU推理路径
延迟与吞吐量优先级:训练:最大化吞吐量和训练时间;推理:AI逻辑、路由、批处理、分词、特征变换、排序和格式化响应
.
推理与计算:训练:最大化吞吐量和训练时间;推理:严格的每请求延迟服务等级协议和高每秒查询数
.
【推动CPU亲和性的推理工作负载特征】
.
当用户提交推理请求时,它首先到达推理API服务器,该服务器将其排队并转发给运行时引擎——一个在CPU上运行的关键组件。运行时引擎执行多项优化任务以保持GPU充分利用并最小化延迟。这些任务包括批处理、键值缓存分页和图编排。数据准备和优化完成后,被发送到GPU,在那里执行推理。处理之后……
.
(完整内容扫码查看全文…)



