推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

【技术白皮书】SAMSUNG Foundry 顶规制程:基于 Transformer 与近端策略优化(PPO)的高速 112G SerDes 封装阻抗 AI 自动化设计

日期：2026-05-25 14:01:53 来源：网络整理作者：本站编辑评论：0

✍️ 导读在高性能计算（HPC）与大模型算力集群爆发的当下，112 Gbps 甚至 224 Gbps 的超高速串行接口（SerDes）已成为数据中心片间通信（如 PCIe 6.0/7.0、高速以太网）的底层核心支柱。然而，当物理通道的奈奎斯特频率跨入百吉赫兹（GHz）级别时，信号在穿过芯片封装（Package）内部的垂直硅通孔（TSV）、C4 凸点、重布线层（RDL）走线、封装过孔（Via）以及 BGA 锡球时，微小的几何形变都会引发剧烈的特性阻抗不连续性。

在电子组件与技术会议（ECTC）上，三星电子（SAMSUNG Foundry）研发团队发表了里程碑式成果《TDR Optimization Method of 112G Serdes Interface in PKG Using Deep Reinforcement Learning》。团队摒弃了传统工程师依赖经验手动调参、耗时耗力的落后范式，首次在基带物理层物理级建模中引入了基于 Transformer 与 PPO 算法的深度强化学习（DRL）自动化阻抗优化架构。在不牺牲制程良率与成本的前提下，该架构成功将时域反射计（TDR）阻抗波动暴击优化超 31%，并实现反射损耗 8 dB 的飞跃式改善。本文将为您深度硬核拆解这一前沿技术。

01. 报告信息速览与系统物理挑战

? 报告文献卡片

报告主题： TDR Optimization Method of 112G Serdes Interface in PKG Using Deep Reinforcement Learning（基于深度强化学习的封装内 112G SerDes 接口 TDR 优化方法）
发布会议： ECTC (Electronic Components and Technology Conference)
核心作者群： Hyunwoong Kim, Sungwook Moon, Jiyoung Park, Taeyun Kim, Jinho Kim, Haemin Lee, Seungki Nam（三星电子晶圆代工部，韩国华城）

? 112G 时代封装设计陷入的“物理盲区”

时序与眼裕量的断崖式衰减： 伴随物理接口速率推高至 112G 及以上，系统的时序裕量（Timing Margin）被极度压缩。由于高速芯片运行在超高功率下，由电源噪声与电磁干扰交织引发的同步开关噪声，使通过传统物理通道的信号裕量极难通过规范红线。
多组件级联的阻抗不连续性： 信号沿途跨越异构封装的多元组件。由于 Package 走线距离远长于中介层，且结构几何突变剧烈，局部极易激发出强烈的码间干扰（ISI）与反射，成为信号恶化的重灾区。
海量几何变量组合的“计算地狱”： 封装设计涉及引脚排列、层堆叠、走线补偿拓扑等数十个复杂的微观物理变量。在传统研发流程中，依靠全波电磁场仿真去穷举寻找阻抗最优解，是一场动辄耗资数周、成本极其高昂的灾难。

图表解析： 该图直观揭示了 SerDes 通道在穿过微凸点、RDL Via、TSV、C4-Bump、PKG Trace、PKG Via 直至 PKG BGA 时的完整物理演进。各界面的阻抗突变（Impedance Discontinuity）在时域反射计（TDR）曲线上表现为剧烈的下陷与突起，这是引发严重码间干扰（ISI）与高频插入损耗恶化的物理元凶。

02. 高速封装与 AI 智能体基础概念储备库

在深入三星的 DRL 优化闭环前，需确立以下跨学科的核心概念基石：

? 核心概念：TDR 阻抗不连续性 (TDR Impedance Discontinuity)当高频宽带脉冲在传输线中行进时，若遭遇由于孔径突变或焊盘带来的电容/电感寄生效应，会导致部分电磁能量向源端反射。时域反射计（TDR）通过捕获这些反射波来实时呈现阻抗空间特性。阻抗的峰峰值（Peak-to-Peak）落差越大，反射越严重。

? 核心概念：近端策略优化算法 (PPO, Proximal Policy Optimization)深度强化学习（DRL）领域前沿的策略级自适应算法。PPO 的核心优势在于引入了保守的裁剪约束机制（Clipping Function），能将策略更新幅度限制在安全可控的阈值内，从而在处理高维、连续的物理硬件设计变量时具有极高的收敛稳定性与高样本重用率。

? 核心概念：注意力机制与 Transformer 网络 (Attention & Transformer Network)原用于自然语言处理（NLP）的深度学习架构。通过多头注意力机制（Multi-Head Attention），该网络能敏锐抽取出多维物理特征输入向量与最终时域波形输出之间极其复杂的电磁学非线性关联网络。

03. 三星双驱自适应预测算子（Prediction Operator）架构设计

为了给强化学习智能体（AI Agent）提供一个运行速度极快且精度不失真的仿真虚拟环境（Environment），三星团队创新设计了一套由 Transformer 网络与双驱并行深度神经网络（DNN）复合构成的预测算子。

图表解析： 如原图所示，整个环境高度解耦。智能体输出的动作（物理尺寸）作为输入向量直接注入预测算子。算子内部划分为两条独立的分支：上层由自适应 Transformer 专门用于解算极度敏感的时域 TDR 波形信息；下层由双路独立 Sequential DNN 负责快速外推频域的反射损耗（与）。

1. 16 维核心物理参数矩阵的定义

团队将整个 SerDes 封装通道微观过渡拓扑抽象为 16 个关键物理控制变量（物理输入向量维度为 16）：

图表解析： 图中明确定义了优化控制的核心物理界限，包含补偿段长度（Comp_length）、补偿段宽度（Comp_width）、信号过孔至地孔的相对距离（X_SG）、差分信号孔对的中心距（X_PN）、层抗坏焊盘清理直径（CirL）以及特定走线单端长度（SE_length）等物理参数。这些变量直接调控着 3D 空间内的容抗与感抗分布。

2. 频域分支：搭载一维卷积的 Sequential DNN

为了精准捕捉多达数十个频点的反射损耗特征，负责预测与的 Sequential DNN 采用了独特的“夹心”架构：在 3 层全连接层（Dense Layers）中间引入了一层精密的一维卷积层（1D Convolutional Layer）。

非线性表征能力： 卷积层拥有远比普通全连接层更丰富的权重拓扑，能以极低的计算时耗开销表征频率谐振点的剧烈突变。
实测精度： 经过 Adam 优化器与均方误差（MSE）收敛训练，该回归网络在验证集上的单端预测表现惊人：** 的平均预测误差低至，而的平均预测误差仅为 **。

3. 时域分支：跨界改造的自然语言版 Transformer

时域 TDR 信号由于对相位变化极为敏感，常规神经网络难以平滑拟合。三星开创性地将原本用于处理文本语料的标准 Encoder-Decoder Transformer 进行了“电磁学改写”：

符号自然语言化： 将 16 维物理尺寸变换为语义序列，并针对 TDR 波形中特有的正负物理电压值，创造性地定义了正代币（Positive Token = 20）与负代币（Negative Token = 10）用于表征极性。输出序列总长定义为 10（包含 Trace 和 BGA 两端的峰峰阻抗、面积、符号位及起止符）。
多头注意力解耦： 采用 2层 Encoder/Decoder 辅以双路多头注意力机制（MHA），总权重规模达 2300 万个。在 6000 个基础电磁样本训练后，其对 TDR 特性阻抗时域波形的综合预测准确率直接飙升至。

图表解析： 该注意力图谱（Attention Map）为 SI 工程师打开了设计“黑盒”。亮色区域直观呈现了物理内因与电学外显的耦合强度。例如，在部分样本中，BGA 端的时域反射阻抗被发现与 Layer 3 的清理铜皮区（Clearance）呈现极强关联，而 Trace 端的 TDR 则由补偿宽度（Comp_width）绝对主导。这为 AI 智能体寻找全局最优解提供了明确的指引。

04. 决策大脑：基于 PPO 算法的 AI 智能体与马尔可夫决策过程（MDP）

有了高速运行的预测环境后，基于 PPO 算法的 DRL 智能体开始接管阻抗匹配优化控制流。系统的马尔可夫决策过程（MDP）构建矩阵如下：

1. 状态空间 (State, )

输入向量完全等对流复用上述 16 维封装物理几何变量阵列。

2. 动作空间 (Action, )

为了实现物理层尺寸的丝滑演进，AI 智能体被赋予了 7 种离散的行为步长控制模式：

大步提拉 / 沉降（Big Up / Down）： 阶跃尺寸为。
中步微调（Middle Up / Down）： 阶跃尺寸为。
小步精修（Small Up / Down）： 阶跃尺寸为。
原地静止（Stay）： 保持当前物理构型，用于在单批次内锁定并锚定全局最优解。

3. 三维惩罚级联奖励函数 (Reward, )

为了防止智能体陷入“死抠时域阻抗却导致频域反射严重崩溃”的顾此失彼僵局，三星构建了一套**兼顾时域 TDR 峰峰值与频域反射损耗的全功能复合奖励矩阵**：

对于任意单端（），其独立奖励分量定义为：

其中，时域阻抗分量专注于压制反射峰值：

频域辅助分量则通过计算全频段内反射损耗低于目标线的频点数进行额外积分奖励：

图表解析： 训练收敛曲线清晰记录了 AI 的进化过程。在 4000 个 Episode（总计 20 万次无监督主动电磁勘探）的高密度迭代下，智能体在经历初期的震荡摸索后，在 2000 个 Episode 附近完成了对核心物理规律的自我掌握，最大奖励值稳稳锁死在 26.473 的高位收敛轴线上，证明了该 MDP 机制高超的稳定性。

05. 算法性能决战：与遗传算法（GA）及随机搜索（RS）的对决

为了力证该 AI 智能体的优越性，研发团队引入了业界常用的遗传算法（GA）以及暴力穷举的随机搜索（RS）在完全相同的时耗基准下进行了对比：

1. 算法最终总奖励得分（Max Score）横向对比

根据统一设置的优化目标，三方算法最终斩获的全局最高积分数据汇总如下：

优化算法选择（Optimization Methods）	迭代深度与种群规模配置	最终最高奖励得分（Max Score）
Random Search (RS)	1K 次样本穷举扫描
Random Search (RS)	10K 次高密度扫描
Random Search (RS)	100K 次极限样本穷举
Genetic Algorithm (GA)
Genetic Algorithm (GA)
Proposed Method (DRL)	4000 级自适应演进（基于 PPO）	（摘得桂冠）

2. 实测电学指标修复裕量矩阵（以初始设计作为基准参照值 1.0）

在将初始未优化的不连续信道各项指标归一化定义为基准值 x1 的前提下，各种算法对 112G SerDes 通道物理层最终参数的修复能力对比如下表所示：

电学性能考核指标	RS 随机搜索门槛(100K 穷举)	GA 遗传算法基准(200/500 代)	本文方案：最佳总分模式(Best Score Mode)	本文方案：极致阻抗模式(Best TDR Mode)
Trace 端 TDR 峰峰阻抗波动 ()	（反向恶化）	（优化 20.6%）	（维持基准）	（暴击缩减 31.6%）
BGA 端 TDR 峰峰阻抗波动 ()	（反向恶化）	（反向恶化）	（维持基准）	（暴击缩减 31.7%）
Trace 侧第一奈奎斯特频点反射 ()	（反射激增）	（反射激增）	（优化达 31.3%）	（略微权衡）
BGA 侧第一奈奎斯特频点反射 ()	（反射激增）	（反射激增）	（优化达 24.0%）	（略微权衡）

06. 核心电学机制与工程师思维的终极共鸣

通过深度审视 AI 智能体在“最佳总分模式（Best Score）”下的自适应微观动作，三星 Foundry 发现了一项极为震撼的现象——AI 展现出了与顶尖信号完整性（SI）专家完全一致的电磁设计直觉：

时频域的完美妥协： 智能体敏锐地觉察到，由于互连前级连接着中介层的 TSV 和低阻 Bump，在 PKG 走线入口处必然会产生大幅度低阻断崖。
主动调高前段阻抗以对冲陷波： AI 并没有单纯去压制每一个阻抗突变点，而是故意拉高了 TDR 入口段的初始特阻基准值。这种局部特意的上扬，在时域上完美重构并中和了 BGA 侧的深度容性陷落，从而换取了全链返回损耗（Return Loss）高达 的史诗级跃升。这种牺牲局部平坦度、换取整体系统全通带稳定性的高级自适应策略，正式宣告了 AI 具备了电磁协同设计的深度洞察力。

07. 核心工程技术结论

三星晶圆代工团队的这项基于 DRL 的 SerDes 封装阻抗全自动 Sign-off 优化方案，为下一代高性能、大算力异构集成硬件开发确立了全新的方法学标准：

彻底跨越“工程主观经验鸿沟”： 成功终结了过去高速封装布线路由高度依赖资深工程师手工试错、经验主义导致设计质量参差不齐的历史。通过将复杂的物理电磁场边界条件映射为通用的自然语言 Token 序列，使得 112G / 224G 乃至更高密度的物理层设计能够实现标准化的算法演进。
打通跨技术栈、系统级的通用可扩展性： 借由 Transformer 架构无限制处理输入向量尺度的天然物理优势，本套 DRL 闭环控制算法在不需要重构底层网络的前提下，只需动态更改输入输出字符串定义，即可将其优化动能平滑扩展到下一代 224G 顶规串行总线、高带宽内存（HBM3/HBM4）物理布线，以及单板和系统级的跨领域自动设计（System-Level Auto-Design） 中，展现出极高的工业应用价值。

? 参考文献 (References)

[1] H. Kim, S. Moon, J. Park, T. Kim, J. Kim, H. Lee, and S. Nam, "TDR Optimization Method of 112G Serdes Interface in PKG Using Deep Reinforcement Learning," in Proceedings of IEEE Electronic Components and Technology Conference (ECTC), Hwaseong-si, Korea, 2025, pp. 941-946.

[2] J. Park et al., "A Novel Vertical Conductive Structure for Printed Circuit Boards and its Scalable Model," IEEE Transactions on Signal and Power Integrity, vol. 3, pp. 67-74, 2024.

[3] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, "Proximal Policy Optimization Algorithms," arXiv preprint, arXiv:1707.06347, 2017.

[4] A. Vaswani et al., "Attention Is All You Need," in Advances in Neural Information Processing Systems (NeurIPS), vol. 30, 2017, pp. 6000-6010.

本文由微信公众号【芯有灵矽】独家整理发布。我们致力于分享最硬核的底层半导体工艺、信号/电源完整性分析（SI/PI）及光电共封装多物理场联合仿真技术。如需转载，请注明出处。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行