推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

行业洞察(24):谷歌 CLOUD NEXT 2026发布TPU v8 架构,光互联格局如何演进?

   日期:2026-04-25 09:32:55     来源:网络整理    作者:本站编辑    评论:0    
行业洞察(24):谷歌 CLOUD NEXT 2026发布TPU v8 架构,光互联格局如何演进?

继英伟达GTC大会和OFC 2026后,另一个重磅会议Google Cloud Next 20262026 22-24 日在拉斯维加斯举行。大会已经发布备受关注的TPU v8架构。

本文仅从光互联相关视角梳理一下TPU v8架构特点,以及对光互联的影响。

(一)TPU V8 双芯战略,训练和推理分离

1.TPU v8tSunfish太阳鱼),主要负责训练。

1)TPU v8t单集群Pod算力FP8 121 Exaflops,是TPU v7集群Pod算力FP8 42.5 Exaflops2.84 倍。

2)TPU v8t引入Virgo网络,训练带宽提升了4倍。

3)TPU v8t 芯片间互连(ICI)扩展带宽提升了 2倍,减少了数据瓶颈。

4)TPU v8t 引入 SparseCore加速器,处理嵌入式查找中不规则的内存访问模式。

5)TPU v8t 引入4位浮点 (FP4),在低精度量化下也能保持大型准确性。

6)TPU v8t 中引入了TPU Direct RDMA TPU Direct StorageTPU Direct RDMA 实现了 TPU 内存(HBM)与网络接口卡(NIC)之间的直接数据传输,绕过了主机 CPU  DRAM, 降低了延迟,提高了 TPU 间通信的有效带宽。

7)大规模训练时,TPU v8t 相比 Ironwood TPU 实现了2.7倍的单位成本性能提升。

2.TPU v8iZebrafish斑马鱼),主要负责推理。

1)TPU v8i 配备了容量最高片上 SRAM,是原来的3倍。

2)TPU v8i 采用Boardfly新型网络拓扑,不再采用3D环面拓扑,虽然Torus 拓扑对于密集训练中典型的邻节点间通信非常高效但它会为全对全(all-to-all)通信模式带来延迟开销,任何芯片都可能需要与其他任何芯片通信,通信跳数非常可观。对于1024 芯片集群pod),Boardfly网络径从16跳减少到7跳。

3)TPU v8i相比 Ironwood TPU 实现了80%的单位成本性能提升,在大 MoE 模型的低延迟方面表现尤为出色。

(二)TPU v8架构特点及对光互联影响

TPU v8架构并没有强力追求单颗TPU的性能和参数提升,而是从 “单芯片极致”  “集群化最优方向演进。

TPU v7 单芯片全能, TPU v8 训练/推理彻底拆分,分工不同,优化集群总算力、互联带宽和能效。

主要围绕网络架构和互联架构进行优化,TPUv8t引入了Virgo网络、SparseCore加速器、TPU Direct RDMATPU Direct Storage等技术。TPU v8i 3D Torus架构变换为Boardfly网络架构。

总体看,逻辑从过去关注单芯片的极致算力,逐步演进到关注算力、互联、存储等综合能力的提升,最终提升整个集群的算力,互联在集群中的地位明显提升,有利于光模块、OCS等产品。

(三)OCS成为光互联骨架

现有网络大多用电交换模式,包括英伟达的主流架构,需要光--光转换完成信号交换。

在谷歌TPU v8架构中,依靠互联发挥大规模TPU性能,保证集群算力成为重中之重,OCS地位凸显,成为互联网络的骨架,直接带动 OCS 用量、端口速率全面提升。

1.跨机柜 / 跨集群全光互联,替代电交换机; 

2.时延:从毫秒微秒级,丢包≈0 

3.功耗:大幅度降低; 

4.带宽:支持1.6T/3.2T 光模块,支撑3D Torus

(四)内存池化趋势

本次会议目前还没看到太多关于内存池化的信息,也许还要后续架构才逐步实现CXL内存池化。但我们可以根据此前一些信息梳理一下内存池化的趋势,以及对光互联的影响。

以前每台服务器插多少内存(DRAM)就只能用多少,别的闲着也用不到。CXL内存池化将DRAM统一资源池,动态分配,由服务器共享,避免浪费。

内存池化以 HBM 为本地高速缓存,DRAM 为全局共享池的分层协同设计,兼顾极致带宽与灵活扩容。

本地内存(HBM)承担计算核心的低时延、高带宽访问。DRAM 负责大容量长尾数据,通过 OCS 光互联与 CXL 高速连接,实现 “就近计算 + 全局共享” 的最优效率。

CXL内存池化有如下优势:

1.超大模型训练,不再受到本地内存的限制,充分发挥效率;

2.不用每台服务器配满内存,整体节省硬件成本;

3.内存利用率从 20%~30% → 提到80%+

4.需要配置光互联,利好光模块、OCS等业务。

(五)谷歌TPU与英伟达GPU架构光互联差异

1.谷歌算力集群将OCS全光路交换作为集群的架构核心,组成3D Torus架构网络,无边缘节点,交换层面全光交换,OCS使用MEMS微振镜阵列交换光信号,无需转换为电信号,无需传统的顶置交换机。每个 TPU  6 条光链路(±X/±Y/±Z),组成 4×4×4 Cube→更大 3D Torus。机柜内部相邻TPU之间采用电连接,与外部采用光连接,一个机柜大概有96路光连接。

2.谷歌短期以可插拔光模块为主,不激进推CPO,但推动OCS力度大。

3.英伟达(GPU 集群),三层架构:机柜内(NVLink 铜缆)→机柜间(Leaf 交换机)→Pod 间(Spine 交换机),光互联和电互联都在用,光互联主要用于电连接无法适应的场景。还存在大量的电连接和电交换,单机柜内靠NVLink + 铜缆背板(如 NVL72),InfiniBand/Spectrum-X层级电交换为主。

4.英伟达大力推动CPO/LPO,光引擎与交换和算力芯片集成,而对于OCS的力度不如谷歌。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON