推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  带式称重给煤机  履带  无级变速机  链式给煤机 

共封装光器件 (CPO) 深度行业分析与技术总结

   日期:2026-01-05 08:46:30     来源:网络整理    作者:本站编辑    评论:0    
共封装光器件 (CPO) 深度行业分析与技术总结

第一部分:CPO 的市场背景与驱动力分析

1. 核心矛盾:带宽需求与物理极限

长期以来,数据中心的连接一直依赖可插拔收发器(Pluggable Transceivers)。凭借成本效益、易部署性和标准化互操作性,它一直是行业的默认选择。然而,随着人工智能(AI)时代的到来,计算负载对网络带宽、范围、密度和可靠性的要求呈指数级增长,传统的连接方式正面临物理极限。

  • 铜缆的局限性: 尽管像 NVLink 这样的铜缆互连在 Rubin 架构中每 GPU 带宽可达 14.4 Tbit/s,但其有效传输距离被限制在两米以内。这意味着基于铜缆的扩展(Scale-up)最多只能覆盖一到两个机架。

  • SerDes 的扩展瓶颈: 通过提升 SerDes(串行器/解串器)速度来倍增带宽变得极具挑战。虽然英伟达计划利用双向 SerDes 实现带宽翻倍,但从 224G 走向 448G 的电信号传输在物理上极其困难,进展缓慢。

  • 能效问题: 传统收发器距离芯片(ASIC/XPU)有 15-30 厘米的电传输距离,需要高功耗的长距离(LR)SerDes 和 DSP(数字信号处理器)进行信号恢复。CPO 通过将光引擎置于芯片旁,省去了 DSP 并使用低功耗 SerDes,可将每比特能耗降低 50%-80%。

2. 应用场景:横向扩展 (Scale-out) vs. 纵向扩展 (Scale-up)

CPO 的应用前景在两种网络架构中呈现出不同的逻辑:

  • 横向扩展 (Scale-out):

    • 现状: 英伟达已发布基于 CPO 的 Quantum-X800 InfiniBand 交换机。

    • TCO 分析: 虽然 CPO 能显著降低光器件本身的功耗(降低约 73%),但在集群层面,由于服务器本身功耗巨大,CPO 对三层网络总功耗的节省仅约 2%,对 TCO 的节省约 3%。

    • 战略意义: 目前 Scale-out 端的 CPO 更多是作为“演练”。英伟达等巨头利用此场景来磨合供应链、收集可靠性数据,为真正的大规模应用做准备。

  • 纵向扩展 (Scale-up):

    • CPO 的杀手级应用: 这是 CPO 真正的战场。Scale-up 网络(如 GPU 间的互连)对带宽和延迟的要求远高于 Scale-out。

    • 突破物理限制: CPO 允许纵向扩展域突破铜缆的距离限制,实现跨机架甚至更大规模的全连接网络。

    • 市场规模: 随着集群规模扩大,纵向扩展互连的潜在市场规模(TAM)将远超横向扩展网络。Celestial AI 等公司预测其基于 Scale-up 的 CPO 解决方案将在 2028 年带来 10 亿美元的年收入。

3. 可靠性数据与市场信心

Meta 和博通在 ECOC 2025 上发布的数据为 CPO 注入了强心剂:

  • 测试数据: 15 台 51.2T CPO 交换机累计运行 104.9 万个 400G 端口小时,未出现不可纠正代码字(UCW)。

  • MTBF 对比: CPO 的平均故障间隔时间(MTBF)为 260 万设备小时,显著优于 400G 可插拔收发器的 50-100 万小时。

  • 挑战: 尽管实验室数据亮眼,但在充满灰尘、温度波动的实际数据中心环境中,CPO 的现场维护(不可热插拔)和故障影响范围(单个故障可能影响 64 个端口)仍是客户的主要顾虑。


第二部分:CPO 技术原理与实现架构

1. 什么是 CPO?

CPO(Co-packaged Optics)是将光引擎(Optical Engine, OE)与计算芯片(ASIC/XPU)直接封装在同一基板或中介层上的技术。

  • 核心优势: 将电信号传输距离从几十厘米缩短至几毫米,从而移除高功耗的 DSP 芯片,并允许使用简化的短距离 SerDes 或宽接口(Wide I/O)。

  • 演进路径:

    • Pluggable (可插拔): 当前主流,DSP 功耗高。

    • LPO (线性驱动可插拔): 移除 DSP,由主机 SerDes 直接驱动,但面临信号完整性挑战。

    • NPO (近封装光学): 光引擎在同一 PCB 但非同一基板,是 CPO 的过渡形态。

    • CPO (共封装): 终极形态,极致的密度和能效。

2. 替代方案:共封装铜 (CPC) 与 Wide I/O

  • 共封装铜 (CPC): 利用双轴电缆(Twinax)直接从封装基板引出,绕过 PCB 损耗。这为 448G 电信号传输提供了可能,适用于机架内的短距离互连。

  • Wide I/O (如 UCIe): 当传输距离不再是问题时,可以放弃高频串行接口(SerDes),转而使用并行宽接口(如 UCIe)。这能提供极高的海岸线带宽密度(可达 10 Tbit/s/mm),远超 224G SerDes 的 0.4 Tbit/s/mm。

3. 关键组件技术详解

A. 封装技术:台积电 COUPE 的崛起

封装是 CPO 的核心。异构集成(将 PIC 和 EIC 分开制造再堆叠)成为主流。

  • 台积电 COUPE (Compact Universal Photonic Engine): 正在成为行业首选。它利用 SoIC(系统整合芯片)技术进行 3D 堆叠,实现 EIC 和 PIC 之间的无凸点(Bumpless)连接,极大地降低了寄生效应和功耗。

  • 集成优势: 相比于博通早期使用的 FOWLP(扇出型晶圆级封装),COUPE 提供了更好的信号完整性和带宽扩展能力,促使博通、Ayar Labs、英伟达纷纷转向该平台。

B. 光纤耦合:边缘耦合 vs. 光栅耦合

  • 边缘耦合 (Edge Coupling, EC): 光纤从芯片侧面对接。

    • 优点: 损耗低,带宽宽,偏振不敏感。

    • 缺点: 制造复杂,难以实现多排光纤(密度受限)。

  • 光栅耦合 (Grating Coupling, GC): 光从芯片顶部垂直进入。

    • 优点: 支持 2D 光纤阵列(高密度),便于晶圆级测试,适合中介层集成。

    • 缺点: 损耗较高,波长范围窄,偏振敏感。

    • 趋势: 尽管 EC 性能更好,但为了追求密度和制造便利性,英伟达和台积电 COUPE 更倾向于 GC。

C. 调制器:三大技术路线之争

调制器负责将电信号转换为光信号,是 CPO 性能的关键。

  1. 马赫-曾德尔调制器 (MZM):

    • 特点: 技术成熟,线性度好,温度不敏感。

    • 缺点: 尺寸巨大(毫米级),功耗高。

    • 应用: Nubis 等追求互操作性的厂商。

  2. 微环调制器 (MRM):

    • 特点: 尺寸极小(微米级),天然支持波分复用(WDM),能效高。

    • 缺点: 对温度极其敏感,需要复杂的控制逻辑。

    • 应用: 英伟达、Ayar Labs、Lightmatter。英伟达已成功量产 200G PAM4 MRM,这是一项重大突破。

  3. 电吸收调制器 (EAM):

    • 特点: 尺寸小,温度稳定性远好于 MRM(适合高热环境),电压摆幅低。

    • 缺点: 锗硅(GeSi)材料制造难度大,难以集成到标准 O 波段生态(通常在 C 波段)。

    • 应用: Celestial AI(因其芯片堆叠架构产生高热,必须选用 EAM)。

D. 激光器与光源

  • 外部光源 (ELS): 为了避免激光器在高温 ASIC 旁失效,目前主流方案是将激光器置于独立的、可插拔的模块中(如 OSFP 封装)。

  • 多波长光源: 为了提升带宽,必须使用波分复用(WDM)。

    • Scintil: 在硅片上集成 III-V 族材料,实现单片多波长激光器。

    • Lightmatter (GUIDE): 将数百个 InP 激光器集成到单个硅芯片上,具备自修复能力。

    • Xscape Photonics: 可编程的多波长梳状激光器。


第三部分:CPO 带宽扩展路线图

要将光引擎带宽从目前的 1.6T/3.2T 扩展到 12.8T 甚至更高,行业正在沿三个维度推进:

  1. 光纤数量: 增加物理通道。

    • 从 127µm 间距向 80µm 间距演进。

    • 采用多芯光纤和 2D 光纤阵列(如 Nubis 的 36 根光纤阵列)。

  2. 单通道速度:

    • 波特率: 从 100 Gbaud 向 200 Gbaud 迈进(MZM 在此方面有优势)。

    • 调制格式: 从 NRZ -> PAM4 -> PAM6/PAM8 甚至相干下沉。

  3. 波分复用 (WDM):

    • 在单根光纤中传输更多波长(颜色)。

    • 从 CWDM(粗波分复用,4-8 波长)向 DWDM(密集波分复用,16+ 波长)发展。MRM 调制器最适合处理多波长。


第四部分:主要厂商与产品现状

1. 行业巨头

英伟达 (Nvidia)

  • 策略: 利用 CPO 解决互连瓶颈,但对 Scale-out 保持谨慎,重点在于 Scale-up 的长远布局。

  • Quantum-X800 Q3450 交换机:

    • 144 个 800G 端口,总带宽 115.2T。

    • 架构: 4 颗 ASIC,周围环绕 6 个可拆卸的光学子组件(实为 NPO 形态)。

    • 技术突破: 采用 200G PAM4 MRM 调制器,基于台积电 COUPE 平台。

  • Spectrum-X Photonics: 计划 2026 年下半年发布,以太网版本,采用 3.2T 光引擎,集成度更高(OE 焊接在基板上)。

博通 (Broadcom)

  • 地位: CPO 领域的先行者,唯一已有交付产品的厂商。

  • 演进:

    • Humboldt: 25.6T,混合光/电,SiGe EIC。

    • Bailly: 51.2T,全光接口,7nm CMOS EIC,FOWLP 封装。

    • Davisson: 基于 Tomahawk 6,102.4T,转向台积电 N3 和 COUPE 平台。

  • 战略: 成为 ASIC 设计合作伙伴(如为 OpenAI 开发芯片),利用其 CPO 经验。

英特尔 (Intel)

  • 路线图: 2024 年展示 OCI(光计算互连)芯片,4T 双向带宽。计划 2025 年推出可拆卸光连接器,2027 年实现基于垂直耦合的 3D 集成光子学。

2. 创新型初创公司

这些公司通常提供独特的技术路径,试图在巨头林立的市场中突围。

Ayar Labs

  • 核心产品: TeraPHY 光引擎。

  • 技术特点:

    • 全球首款 UCIe 光重定时器。

    • 使用外部 SuperNova 激光器(16 波长 WDM)。

    • 第三代产品转向台积电 COUPE,单向带宽达 13.5T。

  • 生态: 与 Intel、Nvidia、GlobalFoundries 深度合作。

Celestial AI

  • 核心理念: 专注于光互连架构(Photonic Fabric),打破“内存墙”。

  • 独特技术:

    • 光中介层 (OMIB): 允许 I/O 位于芯片中心而非边缘,消除海岸线限制。

    • EAM 调制器: 唯一坚持使用 EAM 的厂商,为了在高温 ASIC 下方稳定工作。

    • 内存设备 (PFMA): 基于光的远端内存池,支持 16 个 ASIC 共享 HBM。

  • 市场预期: 预计 2028 年营收达 10 亿美元,主要得益于与亚马逊 Trainium 4 的合作。

Lightmatter

  • 核心产品: Passage 光子中介层。

  • 架构: 一块巨大的晶圆级硅光子中介层,芯片直接由上面的 SerDes 互连,无需 PCB。

  • 技术: 自研 GUIDE 外部激光器(集成数百个激光器,具备冗余)。支持 114T 总带宽。

Nubis

  • 核心差异: 专注于互操作性和易用性。

  • 技术: 独特的 2D 光纤阵列(垂直引出,36 根光纤),密度极高。采用成熟的 MZM 调制器以确保兼容性。

  • 被收购: 2025 年 10 月被 Ciena 收购。

其他厂商

  • Ranovus: 强调与 AMD Xilinx 的互操作性,使用 MRM 和量子点激光器技术。

  • Xscape Photonics: 专注多波长光源,开发可编程梳状激光器(ChromX),单根光纤支持高达 128 个波长,旨在大幅简化光纤数量。

  • Scintil: 在硅片上异构集成 III-V 族激光器,提供单片多波长解决方案,无需外部激光器。


第五部分:供应链与制造挑战

1. 制造复杂性

CPO 不再是单纯的芯片制造,而是极其复杂的系统工程。

  • 良率问题: 将 36 个光引擎、ASIC、HBM 全部封装在一个基板上,任何一个组件的失效都可能导致数万美元的报废。

  • 组装挑战: 需要极高精度的光纤对准(亚微米级)。Ficontec 等公司的自动化设备虽然在进步,但吞吐量仍是瓶颈。

2. 可维护性与生态系统

  • 现场维护: 传统的“拔下坏模块换新的”模式在 CPO 上行不通。光引擎故障可能导致整机返厂。英伟达的 NPO 设计(可拆卸子组件)是对这一问题的妥协。

  • 光纤管理: 交换机内部布满极其脆弱的光纤,且对弯曲敏感。如何在一个狭小的机箱内管理连接 144 个端口的数百根光纤(还要考虑冗余激光器光纤)是一个巨大的机械设计挑战。

  • 标准化: 目前 CPO 仍处于“狂野西部”阶段,各家封装、接口、波长定义不一。缺乏像可插拔模块那样统一的 MSA 标准,阻碍了多供应商生态的形成。


总结与展望

CPO 技术已经从“是否需要”转变为“何时量产”的阶段。虽然在 Scale-out 网络中,它面临着成本效益不明显和维护困难的阻力,但在 AI 算力集群的 Scale-up 网络中,CPO 是突破铜缆物理极限、实现万卡甚至十万卡集群互连的必由之路。

未来 3-5 年将是关键期:

  1. 台积电 COUPE 将统一封装平台,降低设计门槛。

  2. 纵向扩展 (Scale-up) 将成为首个大规模落地的场景(如亚马逊 Trainium 集群)。

  3. 技术路线收敛: MRM 因其密度优势可能在高性能计算中占据主导,而 ELS(外部光源)将成为标准配置以解决可靠性问题。

CPO 不仅仅是光器件的革新,它是对整个数据中心互连架构、封装工艺和供应链的一次彻底重构。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON