推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

通信:面向大规模智算集群场景光互连技术白皮书(2025年)(52页报告)

   日期:2025-12-30 11:44:45     来源:网络整理    作者:本站编辑    评论:0    
通信:面向大规模智算集群场景光互连技术白皮书(2025年)(52页报告)

如需报告请联系客服或扫码获取更多报告

1. 下一代智算集群提出近乎严苛的互连需求

1.1. 大模型的巨量迭代引发智算集群架构变革

实现通用人工智能(AGI, Artificial General Intelligent)已成为大模型未来发展方向的广泛共识。大模型技术总体仍遵循扩展法则(Scaling Law),参数已迈向万亿甚至十万亿规模,对智能算力的需求呈现爆炸式增长。如下图所示,模型参数规模的增长速度约每两年400倍,其算法结构在原有Transformer的基础上,引入扩散模型、专家系统(MoE, Mixture of Expert)等,使模型泛化能力增强,并具备处理10M+超长序列能力,推动芯片算力(FLOPS)约每两年3倍的提升,需要至少百倍规模的集群演进速度来支撑大模型的发展,但芯片间的互连能力提升缓慢,只有约每两年1.4倍,远落后于模型规模和算力的演进速度。

1.2. 大规模智算集群呼唤“光进电退”技术

目前,超节点智算集群展现出三大技术特性,一是互连性能高,GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高,超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方案,配合柜级集中电源供电,在提供更高供电效率的同时大幅降低数据中心PUE。

2. 极致化需求驱动光互连技术革新

根据不同应用场景,光互连技术主要分为数据中心间(Data Center Interconnect,DCI)与数据中心两大类。数据中心内聚焦短距传输场景(数米至数百米),核心诉求是高带宽密度、低延迟及低功耗,常用多模光纤,精准适配机柜内/跨机柜互连需求。

2.1. 业界存在两大类光互连技术

光互连技术是通过应用光电转换与融合技术,取代电信号在传统数据传输场景中的主导角色,甚至直接替代芯片上的电IO功能,最终实现信号在传输过程中远距离、低功耗、高密度的目标。其中,实现光电转换的光引擎(Optical Engine,OE)是光互连技术的核心。根据应用场景、光引擎与xPU芯片的距离以及封装集成程度的差异,业界衍生出许多技术范畴,我们将其主要分为两大类:设备级光互连和芯片级光互联。

2.1.1. 设备级光互连:光交换机的演进与应用

随着智算集群规模持续扩展,电交换芯片逐渐显现瓶颈。单芯片容量受制于集成电路工艺的发展,使得电交换芯片在制程工艺、转发架构与缓存设计等方面面临诸多挑战,交换芯片更新迭代速度明显放缓,网络规模难以快速扩展;高速SerDes和复杂转发架构导致功耗和延迟不断上升,信号完整性问题也需要依赖复杂DSP补偿。

2.1.2. 设备级光互连:可插拔光模块的演进与应用

可插拔光模块已广泛应用在传统数据中心、电信网络以及智算中心大规模连接中,具备灵活性高与兼容性强等特征。其将光引擎(OE,Optical Engine)集成在可插拔模块中,如下图所示,通过PCB(PCB,Printed Circuit Board)板级走线与有独立基板的xPU(GPU, NPU, Swtich,etc)相连。目前市场主力产品的速率已达800G,未来采用硅光技术可达1.6T水平,封装向高密度QSFP-DD/OSFP等演进。但面向智算未来高速率1.6T/3.2T以上的互连场景下,可插拔光模块将面临信号完整性恶化、依赖数字信号处理器(DSP,Digital Signal Processor)进行复杂信号补偿导致的系统功耗高、传输时延高等难题。

2.1.3. 芯片级光互连:从近封装到光学I/O

随着专家模型的大EP(Expert Parallelism)架构发展趋势,更大规模、更高带宽密度和极低时延成为智算集群的主要需求。如下图所示,在规模方面,当前Scale-Up单层规模以32卡或64卡为主,需要进一步提升至256卡甚至千卡,高速传输的距离从板级、柜内扩展到柜间;在带宽密度方面,当前国内单通道带宽以200Gbps为主,需要进一步向800Gbps 甚 至 1.6Tbps 迈 进 , 带 宽 密 度 要 求 提 升 至 百 Gbps/mm 2 到TGbps/mm 2 ;在时延方面,当前卡间数据传输时延为微秒级,需要进一步缩短至百纳米甚至十纳秒级。目前可插拔光模块的互连延迟和带宽瓶颈已无法满足大规模智算集群互连需求。

2.1.4. 新型光互连技术具备巨大潜力

可插拔光模块、NPO、CPO和OIO四大技术在带宽密度、时延、能耗、兼容性等方面表现各异,共同构成了覆盖数据中心内不同需求场景的光互连技术体系(见下表),其中芯片级光互连展现出更能精准匹配智算集群未来演进需求的潜力,后续将聚焦该类技术展开具体分析

2.2. 芯片级光互连三大技术路线场景互补

2.2.1. 芯片级光互连技术的组成原理

从器件构成上来看,相较于采用分立式器件的传统可插拔光模块,主流芯片级光互连技术由于硅光的引入,除激光器外,大部分已实现了多种光电器件的硅基集成。其技术方案构成主要分为三大关键组件:激光器(外置或与光引擎耦合)、光引擎、光纤及连接器。无论与电芯片的距离与集成度如何,实现高效光电转换的光引擎和激光器都是芯片级光互连方案的主要研究对象。

2.2.2. 三大技术路线并驾齐驱,硅光或成未来主流

行业内已提出并应用了多种芯片级光互连(如CPO)的实现方案,这些方案可按材料分类,也可按激光器的放置位置分类,而材料与激光器位置往往密切相关。业界目前有三大主要技术路线:其中基于硅光的集成方案通常采用外置激光源,属于间接调制(即需要一个独立的调制器来对光进行编码);而基于垂直腔面发射激光器(VCSEL,Vertical-Cavity Surface-Emitting Laser)的方案则是由电子设备直接改变其注入电流来调制光源,无需额外的独立调制器;Micro-LED则摒弃传统激光器,采用Micro-LED作为光源,采用阵列形式,单个芯片可集成数十至数百个,满足高聚合速率需求。

3. 前瞻性芯片级光互连生态迎来关键窗口期

3.1. 国际产业由巨头牵引率先打通产业链

(一) 标准化工作进展

OIF CPO工作组从2020年起组织芯片、光器件、封装和系统厂商共同制定标准,旨在满足高带宽、低功耗互连的需求,并为产业界提供统一的技术规范。已发布的CPO相关标准与项目包括:

《Co-Packaging Framework Document》,该文档对光电合封系统框架进行了说明和定义;

《Implementation Agreement for a 3.2Tb/s Co-Packaged (CPO)Module》定义了用于以太网交换机的 3.2T CPO 模块,光口 FR4 和DR4 、电接口32xCEI-112G-XSR 、光机械模块规格、电气规格以及通过增强现有 OIF CMIS 规范来实现的控制和管理接口等;

《 External Laser Small Form Factor Pluggable(ELSFP)Implementation Agreement》定义了前面板可插拔外部激光光源规格,以及对机械、热、电气和光学参数的互通性,标准的功率范围和光纤结构等进行了定义。

(二) 产品/技术方案进展

整体而言,国际厂商已经形成了从技术验证到商用量产的闭环。以GPU/ASIC芯片的供应商为例,他们同时具备计算芯片与光引擎的设计 能 力 , 可 以 内 部 整 合 后 直 接 交 由 台 积 电 、 格 罗 方 德 ( GF,GlobalFoundries)负责光互连芯片制造,再组装成完整共封装产品。国际领先CPO厂商主要由芯片巨头和光引擎企业构成。其中,芯片巨头以博通、英伟达、英特尔为代表,光引擎初创企业以AyarLab、Lightmatter、Avicena为代表。

(三) 产业发展趋势

CPO正从交换侧向算力侧渗透,硅光子集成(如台积电的CoWoS封装)、新材料的应用如薄膜铌酸锂(LNOI)以及片上光源与调制器的异质混合集成等多种技术路线并行发展。科技巨头纷纷发布产品路线图,构建从芯片设计、制造、封装到组装的完整产业链,市场预计将迎来爆发式增长。预判2026-2027年是800G/1.6T CPO商用化关键期,将优先应用于大型云厂商的智算中心,主要面向超大规模模型训练场景。

3.2. 国内处于从研究向应用转化的起步阶段

(一) 标准化工作进展

2022年3月,由中国计算机互连技术联盟(CCITA)联合电子标准院及多家企业和科研院所共同制订的《T/CESA 1248-2023 小芯片接口总线技术》、《T/CESA 1266-2023 半导体集成电路 光互连接口技术要求》完成标准草案制定,并分别于2023年3月和2023年9月正式实施。

(二) 产品/技术方案进展

整体而言,国内处于从研究向应用转化的起步阶段。国内光互连技术产业分为上中下游,上游包括光器件与光材料企业,代表企业有:中际旭创、仕佳光子、济南晶正等;中游主要包括光电共封、测试、光引擎设计等环节,头部企业包括曦智科技、奇点光子、图灵量子等;下游主要是整机设备商以及云厂商,整机设备商又分为智算服务器和交换机厂商,其中的头部企业有:华为、中兴通讯、新华三等;云厂商主要以阿里云作为头部代表企业。这些企业已在1.6T硅光可插拔模块和CPO样机方面形成布局,逐步积累产业化经验。

(三) 产业发展趋势

我国芯片级光互连技术发展正在起步爬坡期加速蓄力,虽整体产业化进程较国际头部企业晚,但凭借自主技术突破,已展现出强劲后劲。从基础来看,国内已制定相关标准,明确技术路线;企业方面,模块厂家已在可插拔光学领域积累硅光子集成、光电协同封装等经验,多家光引擎初创企业已进入原型验证阶段;产业链上,硅光芯片工艺、高密度封装基板等关键环节正逐步攻克,形成“标准-芯片-设备”的初步闭环。叠加大规模智算集群对高性能互连的刚需拉动,我国芯片级光互连技术正从技术研究向试点商用迈进,未来将在自主可控与规模化应用上的增长潜力持续释放。

4. 规模化应用需跨越技术和产业的双重挑战

设备级光互连和芯片级光互连技术是未来高带宽、低功耗数据中心网络的三大关键技术,然而,这些技术从实验室走向商用落地,仍面临多个方面的挑战。

光互连技术是实现高集成度、低功耗、低成本、小体积的最优互连方案之一,但其产品化受集成光学器件的市场接受度、标准和制造能力的限制,仍面临多个方面的挑战,尤其是在标准、封装工艺、器件性能、散热、仿真测试及良率等维度。

5. 呼吁产学研擘画一贯式全光互连产业蓝图

在“光进铜退”的发展趋势下,基于先进封装的芯片级光互连技术已然成为全球智算产业的焦点。相较于海外市场已形成了完整生态,国内芯片级光互连产业尚未形成整合态势,缺乏核心牵引力量。从企业参与情况来看,少数企业(如华为等)较早启动硅光技术端到端布局,覆盖芯片、模块及系统环节;其余计算/交换芯片厂商在该技术路线上起步较晚,尚未大规模投入;设备端厂商入局较少,实际参与度有限。在制造端,如硅光芯片流片、异质集成封装等技术协同性与工艺成熟度仍需进一步拉通与培育。当前阶段,产业内相关技术进展主要由光器件厂商推动,光引擎厂商为核心参与主体。

结合国内技术和产业现状,需系统角色入局构建产业平台,整合资源孵化产业链,协同推进芯片级光互连技术实现从0到1的突破。中国移动作为算力网络新发展理念的引领者和实践者,已面向智算产业卡间互连领域和机间互联领域分别提出全向智感互连技术体系(OISA,Omni-directional Intelligent Sensing Express Architecture)和全调度以太网技术体系(GSE,Global Scheduling Ethernet),期望以此为基座,与业界共进,推动光互连技术整合,向芯片、设备、集群三层维度深化,构建面向大规模智算集群场景的一贯式全光超节点系统架构。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON