【洛神公开课-第6期】阿里云AI网络白皮书-02训练网络篇

2026-06-23 17:32

【洛神公开课-第6期】阿里云AI网络白皮书-02训练网络篇

系列导读
上一篇我们聊了 AI 数据"全球漂流"是怎么实现的；这一篇深入到 AI 训练阶段——这是网络压力最极致的环节。一个事实：大模型训练过程中，通信时间占训练总时间的 30% 以上。网络不解决，万张 H 卡也只能"摸鱼"。

一、训练网络的真实瓶颈：东西向流量，从 20% 飙到 80%

传统业务：用户 → 服务器，南北向流量为主，对称、可预测。

大模型训练：GPU ↔ GPU，东西向流量为主——AllReduce、AllGather、参数同步……每一步都依赖海量小包的高频通信。

这意味着：东西向流量占比从 20% 突增到 80%；

通信时间一旦拉长，算力利用率（MFU）直接腰斩；

单条链路抖动，可能让整轮 step 全部回退。

所以 AI 训练对网络的要求很"极端"：要么不丢包、要么超高吞吐、要么毫秒级故障收敛。

阿里云这一波升级，正是冲着这三件事去的。

二、一张图看懂"全球训练算力资源池"

▲ 训练算力全球池化网络示意

整个方案的核心思路：把分散在不同 VPC、不同 IDC、不同 Region 的 GPU 集群，"拼"成一个统一的算力资源池。

这背后由三层升级支撑：机头网络、混合云专线、跨地域骨干。

三、第一层升级｜机头网卡 ENI：200Gbps + RDMA 直通

云上的 AI 集群，机内一般跑高速 RDMA（即所谓"机尾网络"），机间走 VPC（也就是"机头网络"）。

过去机头网络只承担管理和外部访问，是个"小水管"；现在它要承担集群间算力池构建和推理 PD 分离后的 KVcache 流量卸载——压力陡增。

阿里云灵骏智算服务器的 ENI 网卡这一波直接拉满：

吞吐拉到 200Gbps：靠 Jumboframe + 硬件卸载实现；

VPC 自研拥塞控制算法：适配大规模组网，不靠传统 ECN 也能稳；

按需开启 RDMA 直通：高速存取能力直接在 VPC 上，特别适合推理 PD 分离场景；

支持 TCP/RDMA 比例自定义：同一张卡，不同任务可以拆带宽。

一句话：以前 RDMA 只能在机内玩，现在 VPC 上也能跑。这意味着跨服务器、跨 VPC 的算力池化真正可行了。

四、第二层升级｜专线：400Gbps 单端口 + 倒换组毫秒级容灾

很多企业的 AI 训练是"混合云"形态——部分算力在自己 IDC、部分在云上、部分在他云。

这就要靠专线把多方算力拉通，构建跨云算力资源池。

痛点 1：突发大流量丢包

过去用多条小专线 + ECMP 凑带宽，但 hash 不均时，burst 流量会在某条专线上瞬间打爆丢包，算力效率直接崩。

阿里云方案：单端口/单专线 400Gbps，从根上消灭 hash 不均。

痛点 2：多业务混跑互相挤

一条专线既跑训练数据回传又跑算力池通信，离线流量一起来就会挤掉算力集群带宽。

阿里云方案：专线出向 QoS——按业务优先级配带宽比例，互不干扰。

痛点 3：专线故障收敛慢

专线物理中断不可避免，传统冗余专线 + BFD 收敛是秒级（1~10s），对训练来说还是太慢。

阿里云方案：专线倒换组——同一倒换组里的 VBR 之间建容灾隧道，故障切换 < 100ms，业务无感。

小科普：什么是 VBR？可以理解成专线接入云上的"虚拟边界路由器"。倒换组的本质是：让同一组里的 VBR 互相做"备胎"，谁挂了流量就跳到隔壁。

五、第三层升级｜跨地域：Tbps 级骨干 + 金银铜链路 + ZooRoute

阿里云全球 29 个 Region 自建光传输网络，连接全球各区域数据中心。

对 AI 训练来说，关键三件事：

① Tbps 级互联 + 99.995% SLA

主要 Region 之间 Tbps 互联带宽，每天数百 PB 数据在 Region 间流动。

② 金/银/铜差分链路

不同业务挑不同档：

训练数据跨地域同步：选铜牌，降本；
关键参数同步、checkpoint 回传：选银牌，性价比；
跨地域推理请求：选金牌，最低时延。

加上 TR 的流量调度功能，可以按业务划分带宽配额，避免离线训练数据挤掉在线推理带宽。

③ ZooRoute：故障 1 秒内收敛

阿里云自研的主动式重路由技术：

多平面探测协议主动感知故障；
分级多指标调度算法自动选最优路径；
多链路批量秒级切换。

通常网络故障收敛时间从分钟级 / 秒级压到 1 秒内，业务层无感知——对动辄训练几天几周的大模型来说，这一点比带宽数字更重要。

六、规划落地：四步搭好训练网络

如果你正在规划企业 AI 训练网络，这 4 步是教科书级别的：

Step 1｜训练 VPC 子网划分

至少包含：算力子网（灵骏/EGS/ACS-GPU）、存储子网（CPFS/OSS）、TR 接入子网、NAT 子网。职责清晰，不混跑。

Step 2｜同 Region 跨 VPC 池化

所有训练 VPC 都挂到同 Region 的 TR，实现 VPC 间高速互通，构建同 Region 算力池。

Step 3｜混合云接入

选 2 条以上冗余专线接入；

VBR 通过ECR 低时延接入 TR（避免跨 AZ 绕行）；

配 BGP + BFD +专线倒换组；

大流量场景上400Gbps 单专线。

Step 4｜跨地域池化

不同 Region 的 TR 互联；

按业务挑链路等级（金/银/铜）；

按业务配跨地域 QoS（避免离线挤在线）。

七、一个被低估的事实

很多人以为，AI 网络优化就是"加带宽"。

但白皮书里反复在讲一句话：网络是算力效率的"放大器"。

ENI 200Gbps + RDMA → 让单机头不再是瓶颈；

400Gbps 专线 + 倒换组 → 让混合云算力池真的能跑训练；

Tbps 骨干 + 金银铜 + QoS → 让跨地域协同不抢带宽；

ZooRoute → 让长任务不被一次抖动毁掉。

算力堆得再高，没这套网络，利用率就会被卡在 50% 上不去。

下一篇我们聊推理——那是一个完全不同的网络故事：入口在哪、模型在哪、用户在哪，全都要被网络重新缝合。

更多更详细的文档指导请参考：[阿里云网络规划设计 - 阿里云AI网络白皮书](https://help.aliyun.com/zh/cloud-network-well-architected-design/alibaba-cloud-ai-network-white-paper)

下期预告：【洛神公开课-第7期】：阿里云AI网络白皮书-03训练网络篇

往期回顾：

【洛神公开课-第1期】：云数据中心网络方案：以 VPC 为核心的架构设计全指南

【洛神公开课-第2期】：应用交付网络方案设计选型指南

【洛神公开课-第3期】：全球化网络方案：构建企业全球一张网

【洛神公开课-第4期】：全球化网络方案：云网络运维的正确姿势：从被动排障到主动管控

【洛神公开课-第5期】：阿里云AI网络白皮书-01数据采集篇

打赏