光与硅的终极联姻:CPO光电共封装研究报告要理解CPO为什么会诞生,我们首先要把视线拉进数据中心机房的深处,看一看芯片们正在经历的“物理学绝望”。 在过去几十年的IT网络中,分工是非常明确的:计算归硅(电子),传输归光(光子)。 硅芯片(比如交换机芯片、GPU)在主板上进行数据处理,当数据需要离开服务器时,它必须转化为光信号。 在这个漫长的古典时期,可插拔光模块(Pluggable Optics)是绝对的统治者。它就像是U盘,插在交换机面板的边缘。内部的电信号通过主板上长长的铜线(通常有几十厘米长)跑到面板边缘进入光模块。 这一切在100G、400G时代都运转得非常完美。直到AI和云计算的爆发,将网络带宽推向了800G甚至1.6T。 这时候,“铜的诅咒”出现了。 高频电信号在铜线中传输时,损耗呈指数级上升。为了让微弱的电信号跑完那几十厘米,芯片厂商不得不大幅加大功率。 到了2019年前后,行业里最聪明的工程师们看着功耗数据表,冒出了冷汗: • 在早期交换机里,光通信的功耗只占系统的10%不到。 • 在51.2T的交换机时代,光互联的功耗竟然占到了整个系统的50%以上。 • 一台高端AI服务器的很大一部分电量,没有用来做智能计算,而是白白浪费在了“把数据从芯片推到面板边缘”的路上。 当时的行业环境是:摩尔定律正在放缓,微软、Meta等超大云厂商面临着机房电量受限、散热系统崩溃的边缘。 【CPO诞生的最根本逻辑】: 如果山不过来,我就过去。既然电信号跑不远,那就把光模块从面板边缘直接拔下来,挪到交换机芯片旁边,甚至封装在同一个基板上。 CPO并非某一家公司的突发奇想,而是产业链上下游一次“蓄谋已久”的自救。 2020年是一个标志性起点。微软和Facebook正式牵头成立了CPO协作组。这标志着CPO从学术界的论文,正式变成了科技巨头们的工程KPI。 最初的形态非常激进:工程师们设想直接把激光器、光调制器全部和交换机芯片用2.5D或3D封装技术粘在一起。这就好比把一个翻译官直接做手术缝进了大脑里,通信距离瞬间缩短到几毫米,损耗几乎降为零。 然而,当CPO进入实质研发阶段时,撞上了一堵巨大的墙。这段历史,是物理学对工程师的无情嘲讽,也是技术演进中最精彩的“妥协的艺术”。 ⚠️ 第一次危机:谁来为“坏掉的灯泡”买单?(2021) 客户发现了一个致命的商业与工程问题:激光器的寿命。 在纯粹的CPO架构下,如果CPO里面的一颗激光器坏了,难道要把价值数万美元的交换机芯片一起扔掉?更何况交换芯片发热量极大,而激光器极度怕热。 ? 决策转折:ELS(外部光源)的诞生(2022) 面对散热和可维护性的约束,工程师们决定“盲盒拆解”: 不把最容易坏的激光器封进去,而是留在交换机的面板上(ELS外部光源),只把负责调制的“硅光引擎”封在芯片旁边。ELS方案完美平衡了“降功耗”和“保成本”的矛盾。 ? 异军突起:ChatGPT引爆算力焦虑(2023-2024) 2022年底ChatGPT的诞生,彻底引爆了对CPO的狂热。大模型训练需要成千上万张GPU高速交换数据。资本市场敏锐地嗅到了趋势:AI时代的瓶颈不在于算得不够快,而在于传得不够快。 CPO并不是凭空发明的某一项单一黑科技,它是硅光子技术、先进封装技术和网络系统工程在功耗危机逼迫下的一次“暴力缝合”。它的每一步演进,都是在带宽、功耗、散热和成本这四个鸡蛋上跳舞。
当我们把时间定格在现在(主流速率从800G向1.6T演进的关键期),CPO并不是孤独的。这里存在着激烈的路线之争: ① 传统可插拔光模块(DSP方案)—— “带独立引擎的货车” • 底层逻辑: 模块里的DSP芯片负责把脏乱差的电信号“洗”干净,再进行光电转换。 • 优势: 极其成熟,即插即用,坏了随时换。 • 短板: 功耗和成本的无底洞。到了1.6T时代,功耗墙几乎无法逾越。 • 生态位: 今天的绝对主力,占据90%以上市场。 ② LPO(线性直驱)—— “极简主义的疯狂” • 底层逻辑: 拔掉内部耗电的DSP芯片,只做简单的线性放大。 • 优势: 降维打击,功耗瞬间下降50%,延迟大幅降低。 • 短板: 工程界的“烫手山芋”。互操作性极差,挑主板、挑芯片,查错排错简直是地狱。 • 生态位: 云厂商在等待CPO成熟空窗期里的“过渡方案”。 ③ CPO(光电共封装)—— “终极的城中村改造” • 底层逻辑: 打破边界,不再有独立光模块,光电直接在交换机芯片周边几毫米处完成转换。 • 最大差异(商业模式的颠覆): 传统模块时代,大家各赚各的钱。CPO时代,光模块消失了,这意味着芯片巨头(如博通、英伟达)正在向下游吃掉原本属于光模块厂的市场份额。 • 对传统插拔: “很好用,但我快买不起,也快供不起电了。” • 对LPO: “真香!但网管部门天天骂娘,出了故障根本搞不清是谁的锅。” • 对CPO: “这是终极解,但也伴随着被巨头绑架的恐惧。”(云厂商极度害怕被单一寡头锁定供应链,这也是他们积极推行OIF通用标准的原因)。 • 短中期(1.6T时代): CPO不会立刻消灭可插拔模块。LPO和下一代插拔依然会占据大头。CPO更多用在极其特定的高性能AI集群内部。 • 长期(3.2T及以上时代): CPO将不再是“性价比选项”,而是“唯一可行的物理选项”。 • 产业重构: 传统的“光芯片-光器件-光模块-交换机”碎片化生态将被摧毁,台积电等晶圆代工厂和芯片设计巨头将成为最大赢家。
当我们把CPO的纵向历史与横向竞争格局交汇在一起,会得出一个极具戏剧性的结论: 【CPO的本质,并不是在发明一种新的“光模块”,而是在消灭“光模块”这个独立品类。】 半导体工业每一次遇到物理极限,解决思路都是“集成”。当年我们将晶体管集成诞生了IC;后来我们将CPU、GPU集成诞生了SoC;今天,面对传输的功耗之墙,我们终于把“光”也拉进了硅的封装盒子里。 传统DSP模块是古典时代的余晖,LPO是革命前夜的阵痛,而CPO代表着新的帝国秩序。它用技术上的极度优雅(最低的功耗、最高的密度),换取了商业生态上的极度封闭。 在这场光与硅的联姻中,没有退路。因为如果不解决把数据传输出去的问题,那些价值连城的GPU,最终都将被困死在由铜线编织的功耗囚笼之中。


