推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  减速机  履带 

Arista XPO白皮书解析

   日期:2026-03-22 22:54:53     来源:网络整理    作者:本站编辑    评论:0    
Arista XPO白皮书解析
这段时间,由于各种因素,市场确实很难做,但Memory(主要是海外)和光却都表现的不错,OFC期间,各家公司都展示对未来乐观的预期。这篇文章我们聊一下本周讨论度非常高的XPO,解析一下Arista XPO的White Paper,看下有哪些市场可能忽略的一些细节。
“光"话题的讨论向来是比较激烈,海外某个大V因为写了CPO进展超预期的文章,被骂的已经删除了自己的专栏。笔者之前因为转了一篇citi对于CPO超预期看法的会议内容,也引来了很多骂声。
笔者无意参战XPO/CPO什么时候到来的讨论,下面的内容大部分都是Arista XPO的内容解析,有些是笔者结合自己的行业调研加入的,但不包含XPO/CPO等的时间进度。
一、AI 浪潮下的基础设施困局
当 AI 数据中心的规模突破 10 万 GPU,当单个训练任务的成本攀升至数百万美元,当传统网络架构在极限带宽需求面前捉襟见肘,我们意识到,是时候重新定义数据中心光学互连了。这个白皮书是今年3月份,Arista Networks 联合 45+产业伙伴发布的。
指数级增长的带宽饥渴
白皮书开篇就直指 AI 网络面临的五个关键痛点:
  1. 极致带宽需求 分布式训练集群需要在数万个加速器间移动海量数据,对网络吞吐量的要求远超传统工作负载。这也是我们星球中之前就说NV不会大规模使用CXL的原因之一(在GTC之前,市场就有人在传GTC上老黄要提CXL)。
  2. 高可靠性要求 在包含 5 万+光链路的大规模网络中,单个模块故障在统计上不可避免。但每一次故障都可能导致价值数百万美元的训练任务中断,造成计算资源的严重浪费和网络资源碎片化。
  3. 液冷集成需求 现代 AI 加速器产生的热负载已超出传统风冷能力。液冷正在成为超大规模 AI 数据中心的基础设施标配,这对每个机架内的组件都提出了严格的热设计约束。关于XPO的液冷,目前市场上讨论的人还不多,因为目前光模块跟液冷并没有啥关系,可能很多人还并不知道XPO里面是有冷板的。
  4. 功耗效率压力 高密度机架运行在有限的功耗预算内,网络消耗的每一瓦都意味着计算资源的减少。光学互连必须实现显著更低的每比特功耗。
  5. 密度瓶颈 物理空间是数据中心的稀缺资源。当前 OSFP 标准每 1U 仅支持 32 个模块,密度不足迫使网络架构师部署更大、更复杂的多层网络拓扑,增加了延迟、成本和布线复杂度。
OSFP 的极限
说到这里,就不得不提业界现在普遍在用的 OSFP(八通道小型可插拔)模块。它确实很成功,从 400Gbps 一路升级到 800Gbps,再到 1.6Tbps,表现可圈可点。但现在它明显撞到天花板了:
  • 实现 204.8Tbps 交换容量需要 4 个机架单元
  • 无法高效集成液冷系统
  • 功耗和密度的矛盾日益突出
有人说,那 CPO 和 OBO 不是可以解决密度问题吗?理论上是这样,但实际操作起来问题一大堆。光模块坏了怎么办?得换整个交换机。制造和测试流程复杂得要命,良率和成本都很难控制。现在的技术还很难达到大规模量产的程度。
二、XPO:为 AI 而生的光学架构
XPO 的设计目标很明确:既要保持可插拔的灵活性,又要在密度上实现质的飞跃。这听起来有点鱼和熊掌兼得的意思,但 Arista 确实做到了。
关键指标
数值
单模块带宽
12.8Tbps
电气通道数
64 条 × 200Gbps PAM4
前面板密度
204.8Tbps / 1OU
功耗支持
400W+
冷却方式
集成液冷冷板
模块尺寸
60.8mm × 111.8mm × 21.3mm
单模块带宽达到 12.8Tbps,用的是 64 条 200Gbps PAM4 通道。前面板密度做到了 204.8Tbps / 1OU,功耗支持 400W 以上,冷却方式是集成液冷冷板,模块尺寸是 60.8mm × 111.8mm × 21.3mm。
跟 OSFP 比起来,XPO 的单模块带宽提升了 8 倍,前面板密度提升了 4 倍,而且是原生支持液冷的。这几个数字放在一起,意义就完全不一样了。
创新一:“腹对腹”双板卡架构
XPO 彻底抛弃了传统的单 PCB 布局。工程师们想了个巧妙的办法:在一个模块里塞进两块独立的 32 通道 PCB。
这两块板卡怎么摆?面对面,“腹对腹”地排列。为什么这么设计?因为发热的大户——发射电路、激光驱动器这些高功耗组件,全都装在朝内的“热侧”;而接收电路、控制逻辑这些相对凉快的组件,就放在朝外的“冷侧”。这样一来,散热效率大大提升。
不过这个设计也带来一个小麻烦:电气触点太多了,插拔的时候得使很大劲儿。怎么办?XPO 加了个带释放拉片的机械弹出器,杠杆比做到 1:11,运维人员轻轻一拉就能搞定,不用再费那么大力气了。
创新二:集成液冷冷板
这是 XPO 最具革命性的设计之一——将冷却直接带入模块内部。
具体怎么做的?液冷冷板就夹在两块桨板卡的“热侧”中间,一个冷板同时给两块电路板降温。这个设计能轻松搞定超过 400W 的散热需求,甚至能支持 8 个 1.6Tbps ZR 光学模块这种极端应用场景。
效果有多好?用 40-45°C 的温水循环冷却,组件温度能比风冷方案低 20-25°C。连接方式也很讲究,用的是盲插式快速断开液体连接器,防滴漏设计,能承受 500 次插拔。流量也是动态调节的,从 0.25 升/分钟到 0.7 升/分钟,根据模块功耗自动适配。
熟悉我的读者都知道,我追踪的比较多的产业是液冷和电。所以这里的液冷多讲一些。
整体为单块冷板结构,跟着芯片轮廓设计,一进一出两组接头,流道在内部,与 GPU 冷板结构逻辑一致。整套液冷系统成本大约占XPO总价值量的15%。
就旭创而言,调研下来,旭创的XPO的冷板,目前应该是在跟两家公司配合研发,一个是子公司东阳光,这个无需多说。另一个是南风,采用3D打印技术来做冷板,相比传统铲齿 CNC 工艺,3D 打印能突破现有流道设计极限,实现更复杂、更精细的流道结构,从而更好地满足芯片外围散热需求;与高精度刻蚀工艺形成互补,适配公司冷板定位,可满足刻蚀工艺难以实现的复杂结构散热成型需求。针对旭创相关方案,由南风独立完成 3D 打印设计工作,旭创自身不具备 3D 打印设计能力,公司完成设计、内部初步测试及外部精密检测后,将合格样品送样给旭创进行验证。
但这里还是要强调一点,由于目前XPO整体还在研发过程中,因此XPO的冷板也都是在送样阶段。
其实包括之前炒过一阵子的金刚石散热,很多人都觉得不可思议。本质上现在散热问题是芯片或者AIDC面临的非常棘手的问题,NV和其他大厂都对散热方案非常open,只要你有更好的散热方案,大厂们都是愿意尝试的,当然最终是否选择,肯定是多方面考虑。
创新三:50V 高压供电
传统可插拔模块用的是 3.3V 直流输入。这在低功耗时代没问题,但到了 400W+ 的高功耗光学模块,电流就大得吓人了。XPO 的做法很直接:既然低压大电流不行,那就高压小电流。
他们直接从机架母线取 46-53V 的直流电(一般是 48V 或 50V),然后在模块的桨板卡上做 48V 转 3.3V 的转换。这样一来,电流需求大幅降低,电源连接器可以做得更小,主板上那些笨重的、按最坏情况配置的稳压器也不需要了。
好处是显而易见的:整体系统可靠性提升了,交换机主板设计简化了,功率转换损耗也降低了。这是个一举多得的设计。
创新四:清洁线性信道
XPO 用 64 条高速电气通道跑 12.8Tbps,用的是 200Gbps PAM4 信令。而且路线图已经规划好了,未来会支持 400Gbps 通道,到时候就是 25.6Tbps 了。
  • 高速发送(Tx)和接收(Rx)信号分离到桨板卡的相对侧,最小化串扰
  • 提供优化的线性信道,非常适合线性驱动可插拔光学(LPO)
  • 功率和低速控制信号(I2C/I3C、复位、中断)通过完全独立的专用卡边连接器路由
信号完整性怎么保证?他们把高速发送(Tx)和接收(Rx)信号分离到桨板卡的两侧,这样串扰就降到最低了。整个信道优化得很干净,特别适合线性驱动可插拔光学(LPO)。至于功率和低速控制信号——I2C/I3C、复位、中断这些,全都走独立的专用卡边连接器,跟高速信号井水不犯河水。
这种设计的好处在哪?信号质量好了,就不需要那么复杂、那么耗电的信号调理电路了。功耗自然就下来了,比传统光学模块省电不少。
三、从组件到系统
机架级对比
在标准 ORv3(HPR)液冷机架中部署完整配置:
指标
OSFP 机架
XPO 机架
提升
机架总带宽
1.6 Pbps
6.5 Pbps
204.8T 交换机数量
8 台
32 台
机架功耗
32kW
128kW
  • 用 OSFP 的话,机架总带宽是 1.6 Pbps,能装 8 台 204.8T 交换机,整个机架功耗 32kW。
  • 换成 XPO 呢?机架总带宽飙到 6.5 Pbps,能装 32 台交换机,功耗 128kW。带宽密度直接翻了 4 倍。
这里有个很关键的点。液冷基础设施投资巨大,要让这笔钱花得值,机架功率密度通常得达到 120kW 以上。OSFP 机架只有 32kW,那相当于花了大价钱搞液冷,结果只用了不到三分之一的能力,严重浪费。
XPO 机架跑在 128kW,把液冷能力吃满了。这意味着冷却和供电基础设施的成本可以摊到更大的计算负载上,每一分钱都花在刀刃上。
数据中心级影响
把视角拉到整个数据中心层面,XPO 的威力就更明显了。
我们按下面的场景来算一下不同方案对交换机机架的需求:
  • 400MW AI 数据中心
  • 支持 128,000 个 XPU(GPU 或其他加速器)
  • Scale-up 网络:12.8Tbps/XPU
  • Scale-out 网络:1.6Tbps/XPU
  • 三层 Clos 拓扑
交换机机架需求对比:
可以看到,用 OSFP 的话,Scale-Up 层要 1,024 个机架,Scale-Out 层要 384 个,加起来 1,408 个机架。换成 XPO 呢?Scale-Up 层 256 个,Scale-Out 层 96 个,总共 352 个。
这可不只是省几个机架那么简单。机架少了,意味着占地面积减少 75%,电力基础设施投资大幅降低,冷却容量需求下降,管道和布线的复杂度也跟着下来了。对于那些动辄几十亿美元建设成本的超大规模设施来说,这能省下多少钱?可能直接少建几栋楼。
或者换个角度想,如果你已经有现成的数据中心,用 XPO 就能在同样的空间里塞进更多加速器,现有基础设施和地产的利用率直接拉满。性能上也有提升。XPO 支持更高基数的交换机,网络拓扑可以做得更简单,层级更少,往返延迟更低。对大规模 AI 训练任务来说,这些改善都会直接体现在性能和效率上。
四、核心创新的系统性思考
XPO 之所以能做到这些,不是靠某一个单点突破,而是一整套针对超大规模 AI 数据中心需求优化的工程决策。同时,它还保持了跟现有和未来行业标准的广泛兼容性。
说白了就是六个字:成熟、高效、可靠。
XPO 没有去追求那些听起来很炫但还不成熟的新技术,而是基于现有的光子和硅芯片技术来提升容量。这样做的好处是风险低,整个生态系统可以建立在已经被验证过的、可靠且经济的制造工艺上。
集成冷板的设计我们前面说过了,就是在两块桨板卡中间夹个冷板,实现原生液冷。热量从光学组件和 DSP 直接传导到液冷系统,效率高得很。
清洁线性信道也是个巧妙的设计。用 CPC 飞线电缆和优化过的边缘连接器引脚布局,信号质量做得很好。信道干净、损耗低,就不需要那些高功耗的数字信号处理(DSP)了,整体功耗自然就降下来了。
功率效率方面,除了线性信道架构,XPO 还直接用 50V 直流母线电压给模块供电,把系统内的功率转换损耗降到最低。
模块的物理尺寸经过优化,配合 MPO-16 连接器实现最大光学密度。这个配置跟高速电气系统连接器中可用的最高密度也是一致的,路由和封装都很高效。这种务实的物理设计,是实现 4 倍密度提升的关键。
平台通用性也很重要。XPO 支持多种光学架构——DR、FR、LR、SR、ZR,能适配不同的网络配置需求。它保持了可插拔性,支持现场快速更换或升级,还支持“按需增长”的部署模式。光模块坏了不用换整个交换机,停机时间降到最低。
五、XPO vs CPO
在追求更高密度的路上,业界其实探索过好几条路。CPO和 OBO都曾被寄予厚望,但 XPO 最终选择了一条不同的路。
CPO的优劣这里就不多讲了,大家应该都比较熟悉。
XPO 走的是另一条路:在密度和实用性之间找平衡。它保留了可插拔的优势,坏了的模块可以现场快速更换,不用动整个交换机。同时密度做到了 OSFP 的 4 倍,虽然没有 CPO 那么极致,但已经足够用了。而且它基于成熟的制造工艺,风险可控,还支持灵活的光学架构选择。
技术创新从来不是一家公司单打独斗就能搞定的事。XPO 的推出背后,站着一个庞大的产业生态。
45+ 合作伙伴,包括光学模块制造商、硅芯片供应商、连接器厂商、系统集成商、云服务提供商……整个产业链上的关键玩家基本都在里面了。这不是简单的商业合作,而是大家一起定标准、做参考设计、建测试规范。
XPO MSA(多源协议)组织已经成立了,规范是开放的,目的就是促进互操作性。这意味着你不会被某一家供应商锁死,供应链是多元化的,有竞争才有进步,价格也会更合理。
这种开放生态的建立,才是 XPO 能够快速规模化部署的真正基础。
XPO 不是终点,而是一个可以持续演进的平台。
现在能做到什么?64 条 200Gbps PAM4 通道,总带宽 12.8Tbps,支持 400W+ 的模块功耗,用的是 MPO-16 光学连接器。
但路线图已经规划好了。下一步是 64 条 400Gbps 通道,带宽直接翻倍到 25.6Tbps。更高的功率密度支持、新一代光学技术集成、更先进的信号调制方案,这些都在计划之中。

知识星球

关注星球,带大家发现新的产业增长点。
星球每天的早报(周内早上9点前更新),除了路透、彭博、FT、Information这些新闻的内容总结,还有汇总了国内外分析师的观点,覆盖的产业包括:Memory、智驾/Physical AI、机器人、AI算力、AI电力、光、PCB、液冷、AI应用,内容比较全,都是最新的分析师观点和新闻,欢迎大家进星球查看。
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON