本文为节选,如需报告请联系客服或扫码获取更多报告

1 AI 算力架构演进:从芯片堆砌迈向系统级协同
随着 AI 模型参数规模突破万亿量级,算力需求已从单纯的 GPU 堆叠,转向全维度的系统架构重构。受限于单芯片物理功耗密度、互连带宽与内存容量瓶颈,其算力增长边际效益递减。当前研究与工程实践表明,系统级协同架构(如高带宽域互联)成为突破单芯片性能上限的主要技术路径。
这一转型的根本动因,在于单颗芯片的物理极限已成为制约算力发展的核心瓶颈。当模型规模远超单芯片的算力与显存容量时,传统分布式训练方法面临通信开销剧增、算力利用率骤降等严峻挑战。在此背景下,通过高速无损互联技术,将数十甚至上百个 GPU 芯片从逻辑层面整合为统一计算单元,对外可视为一台功能极强的“超级计算机”,已成为全球主流 AI 基础设施厂商与研究机构公认的下一代算力架构核心突破方向。这一架构革新不仅实现算力密度的跃升,更是达成系统级高效协同、降低大模型训练与推理综合成本的关键技术路径。
2 超节点系统架构设计
超节点是通过高速互联协议与专用交换芯片构建的高带宽域(High-Bandwidth Domain),将数十至数百颗 GPU 芯片在逻辑上整合为统一编址、低延迟、高带宽的协同计算系统。该架构保留 GPU 的物理独立性,通过统一虚拟内存地址空间与无损互联,实现类单机的编程与调度体验。超节点并非 GPU 的简单物理堆砌,而是融合多芯片、整机硬件、高速互联与配套软件的集成系统,依托算法仿真、工程设计、软硬联合优化等综合手段,构建的极致协同计算系统。超节点对芯片的算传存基础能力,硬件设计的集成能力,高带宽高可靠可扩展的互联能力,以及面向底层算法要求的软硬协同能力都提出了极高的要求,需实现端到端全链路的平衡与优化,方能构建真正意义上的最优“单一”算力产品形态——超节点。
2.1 芯片:从计算到互联的协同演进
2.1.1 算力芯片的演进
单纯堆砌低性能计算单元无法实现算力密度的线性增长。系统性能的增益取决于互联带宽、显存容量与算力的协同匹配,而非单元数量的简单叠加。因此,算力密度并非由芯片数量决定,而是指单位体积内可释放的有效算力。
在机柜功耗和物理尺寸受限的前提下,提升单芯片算力密度是实现超节点极致算力密度的首选路径。英伟达历代架构的演进,正是该理念的典型工程化实践:每一代 NVLink互联带宽的倍增,均与算力、显存容量及显存带宽实现同步提升,确保单位互联带宽所支撑的有效算力持续处于饱和状态,避免资源浪费。在此基础上,英伟达通过NVLink-C2C ( Chip-to-Chip ) 互 联 技 术 , 将 CPU 与 GPU 封 装 于 同 一 基 板(Interposer),实现统一内存寻址与高带宽低时延通信,构建逻辑层面的“超级芯片”,完成从“物理多芯片”到“逻辑单芯片”的整合,持续提升芯片级算力密度。
2.1.2 高速互联技术的突破
超节点的实现核心在于构建高带宽、低延迟的 Scale-Up(纵向扩展)通信域。英伟达率先通过 NVLink 互联协议与 NVSwitch 交换芯片的组合,确立了早期超节点的技术范式。以英伟达 Blackwell 架构为例,其 NVSwitch 技术支持集成 18 或 36 个 GB200超级芯片(对应 36 或 72 颗 GPU),分别构建 NVL36 或 NVL72 超节点,并进一步借助 NVLink 光互联扩展至 576 卡的集群超节点。该架构下,单卡间 NVLink 双向带宽达 1.8 TB/s,NVL72 超节点内 GPU 间互联总带宽高达 130 TB/s。这种基于专用交换芯片实现的 GPU 直连通信域,打破了传统 PCIe 总线的性能瓶颈,为业界提供了重要的技术参考。然而,随着技术的不断演进,超节点互联正逐步突破单一封闭生态,迈向多元开放的发展路径。
2.2 单体超节点与 Matrix 超节点
超节点硬件形态正加速迭代演进。回顾其演进历程,在超节点探索期,行业普遍采用“8 卡机型互联”的技术路径,试图通过光互连方式构建大规模的 Matrix 超节点。例如,NVIDIA 使用 H100/H200 的 8 卡机型通过两层 NVLink 互联构建 256 卡超节点,但由于光互连的成本及可靠性问题,实际上该产品未能实现大规模商业化落地;国内部分厂商则借鉴了该设计,同样使用 8 卡机型及两层互联构建了百卡规模的超节点形态。
随后,NVIDIA 调整技术路线,转向在单机柜内构建更多卡的互联架构,确立了“去光用铜”策略,以降低成本并提升整体可靠性,成功推出系列化的 NVL36/72 单体超节点机型。单体超节点承袭刀片服务器的设计理念,将计算托盘、交换托盘、液冷分配与供电背板一体化集成于单机柜,形成一个独立的 HBD 高带宽域。该架构的核心优势体现在高集成度上,可在单位空间实现更高算力密度,提高了数据中心基础设施的利用效率。在硬件架构层面,早期主流采用Cable Tray(线缆托盘)方案,而随着SerDes技术的持续演进和芯片迭代升级的需求驱动,正交架构方案逐步成为行业新的技术方向。
虽然单体超节点是行业主流,但早期的 Matrix 互联设计思路并未被摒弃,反而演进为构建超大规模集群的关键技术支撑。在持续提升单体超节点集成度的同时,行业依然需要通过柜间互联技术构建更大规模的集群超节点,统一满足高带宽互联、全局地址分配、内存语义及消息语义兼容等核心需求。
尽管技术路线仍然存在迭代变数,但行业已形成明确共识:既要通过硬件架构创新,持续提升单体超节点的集成密度与运行稳定性,也要依托灵活的集群扩展模式,实现整体成本优化。基于对整机柜超节点方案的深度工程实践,中兴通讯创新提出Orthogonal Electrical eXchange (OEX)正交无背板互联交换架构。该架构在保持原有整机柜超节点设计优势的基础上,实现了计算托盘和交换托盘的正交无背板互联,不仅提高了算力密度,保证了高速信号完整性,还进一步增强了系统的可靠性和可维护性;同时通过开放 OEX 机械与电气规范,支持第三方计算/交换托盘标准化接入,向后续多厂家协作共同构建开放、融合、创新的国产化整机柜超节点生态,迈出了关键性一步。
3 以超节点为核心:打造 AI 工厂
3.1 核心理念:从项目到工厂的范式转变
AI 工厂,是以超节点为核心,集成全栈软硬件协同能力,实现从数据输入到智能输出(Token)的标准化、规模化、自动化生产系统。
传统以项目为中心的 AI 开发模式,往往受困于基础设施孤岛、资源利用率低效及部署周期漫长等瓶颈。AI 工厂范式旨在彻底颠覆这一现状,其核心在于将 AI 能力建设从传统的“手工作坊”升级为标准化的“现代化流水线”。
AI 工厂通过全栈软硬协同优化,将数据输入高效转化为 Token,正如传统工厂将原材料精炼为高价值制成品。构建 AI 工厂,其战略意义远不止于缓解当下的算力瓶颈,更在于数字时代对技术主权与敏捷性的重新定义。
3.2 构建路径
AI 工厂是一个以“超节点”为核心的生产力平台,集灵活性、可扩展性与高可靠性于一体。客户可以依据自身业务场景,像搭积木般自由定义“工厂”的规模、性能与成本模型。这种从底层芯片到上层软件的全栈协同与深度定制能力,正是算力竞争下半场的决胜焦点。
要实现以超节点为核心的 AI 工厂,关键在于超越传统的硬件堆叠思维,将分散的算力资源系统性地转化为可高效输出的“智能生产力”。具体可通过以下三个层面展开:
首先,在物理层,重塑底层算力单元,构建高性能基础模组。 利用先进的光互联与高性能交换技术,突破传统机柜的物理边界,将成千上万个 GPU 互联为一个统一的高带宽、低延迟网络域,形成如同超级芯片般的“集群超节点”。这彻底解决了大规模并行训练中的通信瓶颈,为万亿参数模型的运行提供了极致性能的物理底座。
其次,在系统层,实现软硬全栈垂直优化,激活系统协同效能。 AI 工厂不仅仅是硬件的集合,更强调软件栈对硬件资源的深度调度与优化。通过定制化的集群操作系统,实现对超节点内异构算力、分布式内存及复杂网络拓扑的统一编排与智能调度。这种软硬一体的设计,能够最大化资源利用率,并通过重叠计算与通信来隐藏延迟,确保每一份算力都转化为实际产出。
最后,在架构层,采用模块化灵活组装,实现业务敏捷适配。 基于超节点的标准化与解耦设计,企业可以根据业务规模和模型需求,灵活调整工厂的产能。同时,引入算力仿真平台构建“数字孪生”,在虚拟环境中预先推演不同配置下的性能与成本,精准定位最优方案。这种“仿真指导组装”的模式,使 AI 工厂能灵活应对多样化需求:一方面通过仿真规避试错风险,精准规划;另一方面通过弹性扩展快速响应业务变化。最终,它得以演进为一个能持续自我优化、赋能业务的现代化 AI 生产中心。


