
AI 发展的必经之路:AI Infra 全面走向超节点时代
1.1 模型从语言走向多模态,Scaling Law 泛化至全流程
AI 大模型性能持续提升,底层算力基础设施或将迎来革新。当前 AI 模型持续迭代,MoE 架构成 为新趋势,语言基础模型不限于单一功能场景,而是朝着多功能融合的方向演进,新一代 GPT、 Gemini、Claude 等大模型集成推理、代码及智能体等能力,呈现出长序列输入输出、多模态输入 /输出、长思维等特点,AI 模型参数持续突破,训练数据量持续扩张,模型专家数量持续提升,对 作为 AIGC 发展的基础底座——算力集群提出新要求。 从大语言到多模态,模型参数量提升至十万亿级,算力集群规模逐步迈向十万卡、百万卡。伴随 大模型向多模态进化,其参数规模正以每年 10 倍的速度增长,已迈入十万亿级阶段,例如 Qwen3-Max 模型总参数超过 1T,预训练使用 36T tokens;文心 5.0 原生全模态大模型参数量达 2.4T。随着模型参数量持续提升,算力集群规模不断提升,万卡集群成为训练大模型的最低标配, 十万卡级训练集群已成为主流趋势,例如 xAI Colossus 集群已按计划部署 23 万张英伟达 GPU 芯 片,其 Colossus 2 首个 GW 级集群首期规模为 55 万张 GB200 和 GB300 芯片,已于 2026 年 1 月投入使用;Meta 宣布于 2026 年建设 GW 级算力集群普罗米修斯(Prometheus)和亥伯龙 (Hyperion);OpenAI 计划建设 10GW 数据中心,等效 400-500 万张芯片,第一阶段预计将于 2026 年下半年部署;中国移动在 2025 年 12 月建成运营商最大单集群中国移动智算中心(哈尔 滨),部署超 1.8 万张国产 AI 加速卡,并计划在 2028 年建成 10 万卡国产芯片集群;2026 年 4 月 14 日,中科曙光 6 万卡 AI4S 计算集群在郑州国家超算互联网核心节点投用。 AI Scaling Law 仍然生效,从预训练逐步泛化至全流程,对算力需求持续增长。Scaling Law 从 预训练扩展到后训练和逻辑推理全流程,模型不光随着参数量提升而提高性能,还能基于强化学 习、思维链等算法创新在后训练和推理阶段更多的算力投入,可以进一步大幅提升大模型的深度 思考能力。据 OpenAI 介绍,在开发 OpenAI o3 时在训练计算和推理时间方面都增加了一个数量 级,发现了明显的性能提升,验证了模型的性能会随着思考的次数而不断提高,并首次将图片整 合到思维链中,算力需求持续提升。据 Deepseek 介绍,对模型后训练 RL 持续投入算力,模型推 理和智能体能力有望进一步提升,DeepseekV3.2 在后训练投入超 10%的预训练成本,解锁进阶 能力,推理性能与 GPT-5-high 相似。
1.2 AI 模型转向稀疏架构,超节点成为最优解
训练侧:随着模型参数规模持续增长,高带宽域+大内存需求逐步提升,单卡 GPU 远不足以承载 模型,从集中式训练走向分布式训练,AI 基础设施逐步迈入超节点时代: (一)单卡阶段(CV模型主导):在计算机视觉模型为主的时期,模型可以完全放入单个加速卡 中进行训练。此时的并行策略主要是数据并行(DP),单卡的计算能力是主要瓶颈。 (二)八卡模组阶段(小参数 NLP 模型主导):随着 NLP 模型的出现,单卡显存不足以容纳整 个模型,训练扩展到单机八卡。此时,数据并行和模型并行(MP)结合使用,节点内部的通信带 宽成为瓶颈。 (三)超节点服务器集群阶段(大模型主导):当模型参数达到千亿乃至万亿级别,单机已无法 满足需求,必须使用大规模服务器集群进行训练,以 GPT4 1.8T 为例,模型部署需要超 10TB 显 存占用,远超 GPU单卡甚至单服务器容量上限。由此业界通过引入序列并行、专家并行等更复杂 的并行策略,进行分布式训练,训练集群的总规模(卡数)是数据并行(DP)、张量并行 (TP)、流水并行(PP)和序列并行(SP)等多种并行维度的乘积。
模型训练中,TP 和 EP 对带宽要求较大。常见的并行训练模式有数据并行(DP)和模型并行 (MP),其中模型并行又分为张量并行(TP)、序列并行(SP)、混合专家(EP)并行和流水 线并行(PP),其中,PP 和 DP 通信量较少,TP 和 EP 通信量较大: (1)DP:将大规模的数据集划分为多个子集并按批次分配给不同节点,在多个 XPU 间复制模型 及优化器状态,每个副本并行处理部分输入批次,然后在各个节点之间汇总得到最终结果。由于 GPU 卡间需传输大量梯度数据,对带宽要求较高,而通信可以被计算掩盖,因此 DP 对于时延的 要求相对较低。 (2)TP:以行或列方式分割模型层,将子层分布至多个 XPU 并行计算,以解决由模型数据导致 的内存瓶颈问题; (3)PP:将模型划分为多个层,把不同的层按顺序分配到不同的节点上,在拆分模型的边界处 插入通信步骤,以流水线方式执行前向/反向传播,PP 对带宽要求低,对时延要求不太高; (4)SP:用于解决非模型数据(如中间特征值)导致的性能瓶颈问题,将长序列训练任务分解 成多个子序列块并将其保留在不同 GPU 卡中,使其能够处理更长的输入数据;(5)EP:针对采用混合专家(MoE)的模型,将稠密 MLP 层替换为含多专家的 MoE 层,EP 将 专家分布至不同 XPU,输入令牌通过 All-to-All 通信动态路由至目标专家。对比早期的稠密模型, MoE 模型频繁的跨服务器 EP 成为分布式训练和推理的关键技术需求,跨服务器的 All-to-All 通信 逐渐成为新的瓶颈。
伴随模型规模持续增长,超节点服务器逐步成为最优解。而通过这些并行训练方式,当并行域 (如 TP>8)超出单台服务器的范围时,会产生大量且不可避免的跨节点网络通信,使得跨服务 器的带宽与时延成为了根本瓶颈,此外,伴随模型专家数量增长,EP 对大带宽大规模互通需求持 续增长,千亿级模型一次梯度同步即 TB 级数据,传统以太网难以承受,而超节点服务器可通过 内部高速总线互连,能够有效支撑并行计算任务,加速 GPU 之间的参数交换和数据同步,缩短大 模型训练周期。
推理侧:随着模型向稀疏化架构演进,总参数量与专家数量不断增长,推理模式也从单卡单机走 向多机大专家并行,推理场景亦演化出分布式效率优化技术如 PD 分离、AE 分离等。PD 分离将 推理过程拆解为 Prefill(预填充)和 Decode(解码)两个独立阶段,分别部署不同的 XPU 上, 随着模型输入序列长度不断增长,对 KV Cache 缓存提出新挑战,Decode 则对 XPU 带宽及显存 需求较高;AE 分离中,Attention 节点与 Expert 节点间需要频繁传输 Token 数据和专家计算结果。伴随模型从语言大模型走向多模态/多任务理解和生成,对算力及访存需求变大,此外,随着用户 数量持续增长,还需同时兼顾多并发需求。 养“龙虾”时代来临,Tokens 消耗大幅增长,超节点推理成本更低。与传统文字对话式 AI 大模 型不同,OpenClaw 并非只是单纯回答问题,而是能够执行任务的“数字员工”,通过理解用户 自然语言指令,自己搜索、分析、生成、调试、自我修正执行等完成任务,而其中的每一步都会 消耗Tokens,带动大量算力需求。据国家数据局数据,2026年3月,中国日均AI词元(Token) 使用量已突破 140 万亿,消耗量近乎为 2025 年底的四倍。Blackwell NVL72 超节点相比 H200 8 卡 AI 服务器单瓦每秒生成 Tokens 更高,推理性价比显著。
1.3 百万卡集群,Scale up 先行
随着 AI 模型迭代对算力需求不断增长,集群从千卡扩散至万卡、百万卡等,而扩张方式主要为 Scale up(纵向扩展)和 Scale out(横向扩展)两个维度。 Scale out 网络:构建大规模算力集群。Scale out 网络主要用于实现 GPU 服务器或超节点之间的 互联,是大规模集群数据并行、流水线并行等通信模型的基础支撑网络,其性能直接决定集群整 体训练效率和可扩展性。 Scale up 网络:构建大规模 HBD。Scale up 网络主要面向单 GPU 服务器或超节点内部的高性能 GPU 互联,是实现 AI 大模型张量并行、MoE 专家并行、远端内存访问等模型通信需求的关键承 载体系。
通过超节点构建 HBD 域,有效解决“通信墙”、“内存墙”问题。超节点集群(SuperPod), 最早由英伟达提出,是通过高速互联协议与专用交换芯片构建的高带宽域(HBD,HighBandwidth Domain),将数十至数百颗 GPU 芯片在逻辑上整合为统一编址、低延迟、高带宽的 协同计算系统,有效解决“通信墙”、“内存墙”等问题。 百万卡集群,Scale up先行,超节点是百万卡集群的基石。过去算力集群扩张主要采用Scale out 架构,通过以太网连接大量 AI 服务器,以构建千卡、万卡集群,随着 AI 模型逐步引入 MoE 架构, 虽然显著提升了参数稀疏性与模型效果,但也使得通信需求急剧增长,尤其在专家路由和反向梯 度传播中产生大量 All-to-All 通信,使得跨服务器的带宽与时延成为根本瓶颈,制约整体训练效率, 导致随着集群规模扩张时 MFU 持续降低。而 Scale up 域互联则是协同单个超节点内多个 GPU、 CPU 的算力以及域内互联的内存池,借助超高速互联技术,将成百上千颗 GPU 整合为逻辑统一 的“超级 GPU”,实现近似单机级别的协同计算效能,解决通信和内存瓶颈,使得集群在扩大的 同时,算力性能较普通集群提升更大。
以 Scale up 网络为翼,超节点助力国产集群腾飞
2.1 超节点类别及内部结构
报告全文可扫描下方图片二维码进入星球社群查阅下载

(报告来源:东方证券。本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



