随着第五代移动通信开始部署,运营商开始围绕eMBB、mMTC、URLLC等场景开展5G业务,通信基础设施需要满足更高的峰值速率、频谱效率、可靠、连接密度和低时延等苛刻的技术指标。为满足这些技术指标,5G通信设备(以无线接入网设备为例)的收发通道数量增加,从4G的8通道增加到64通道,带宽从几十兆增加到200兆,发射功率从100w增加到240W或更高,这些因素共同导致5G基站的额定满载功耗相比4G增加数倍1。此外,随着5G通信设备小型化的演进,元器件面临更严苛的温度。半导体材料及晶体管参数天然对温度敏感,温度对以下方面是有影响的
• 器件的功能、性能,包括AC、DC timing
• 封装内部的器件可靠性
• 封装的可靠性
为降低设备功耗及元器件工作温度,在元器件层面,通信设备商用ASIC替代FPGA,采用新型的die attach material以及TIM(thermal interface material)甚至半导体制冷器(TEC)帮助导热;在软件层面,通信设备商部署深度休眠(deep sleep)等功能减少功耗。尽管有多种途径帮助降低设备的功耗、温度,但为了设备及元器件的可靠性,在通信设备生命周期,尤其开发阶段,对元器件级
、板级
和系统级
的可靠性评估和验证是重要的。
本文将以NAND flash为介质的某非易失性存储器
为例,评估其在某通信设备中的任务剖面
。首先将介绍非易失性(Non-volatile)存储器,及闪存的可靠性指标;然后分享几种关于Mission Profile 任务剖面的定义;最后基于某存储器件在通信设备中的任务剖面,结合Arrhenius方程和厂商提供的本征可靠性数据进行可靠性评价。
非易失性(Non-volatile)存储器介绍
用户数据的存储媒介,要求断电后仍具备一定的数据保持能力(data retention),即非易失性——Non-volatile。目前主要的数据存储介质包括机械硬盘HDD、以NAND flash为介质的闪存(包括eMMC,UFS,SSD等)。

其中,HDD的供应商以希捷Seagate,东芝Toshiba和西部数据WDC为主。尽管消费者近些年直接使用HDD的机会在减少,例如2022年出货的笔记本电脑中有92%的装配了固态硬盘,但是HDD在NAS(Network Attached Storage)以及数据中心等应用中占较高的份额。下图为HDD的结构示意,主要元器件包括磁盘(disk/platter)、磁头(head)、电机,以及电路中的控制器、存储器等。

此外,NAND Flash的供应商主要有Samsung(三星), Micron(美光),Kioxia(铠侠), Western Digital(西部数据),Solidigm,占据约95%的市场份额。诸如手机中的eMMC、UFS,个人计算机中的固态硬盘SSD,相机中的SD卡、CF卡等,都以NAND flash为存储介质。其中,eMMC、UFS以及近期兴起的BGA封装SSD结构如下,由NAND Flash和相应的控制器组成。

NAND Flash 的可靠性指标
擦写耐久 (Program / Erase Endurance)
JESD22-A117E 对该指标的定义为“The ability of a reprogrammable read-only memory to withstand data rewrites and still comply with applicable specifications”,即存储器能被反复擦写并仍符合其手册标明性能的能力。
Flash器件的手册或厂商提供的测试报告中会标明该器件的Endurance,例如某基于MLC NAND Flash的eMMC的寿命为2K P/E cyles @MLC;25K P/E cyles @pSLC。意味着该器件在MLC模式下能够可靠地进行2,000次擦写,在pseudo-SLC模式下能够可靠地进行25,000次擦写。
数据保持能力(Data Retention)
JESD22-A117E 对该指标的定义为“The ability of an EEPROM cell to retain data over time”,即存储单元长时间可靠地保持数据的能力。
Flash器件手册或厂商提供的测试报告中会标明该器件的data retention,例如5 years @ 10% P/E cycles (55 °C);1 year @ 100% P/E cycles (55°C)。在谈及数据保持时,需要限定存储器的剩余寿命以及温度。下图中的公式为Arrhenius equation,用来计算加速因子,其中AF是要计算的Acceleration Factor,Tu为目标结温,Tt为测试中的结温。根据Tt温度下测试的数据保持时间,可以计算出相应Tu温度下的加速因子,进而算出对应的数据保持时间。例如某型号NOR flash在125°C进行200小时data retention测试通过,那么可以计算出55°C能保证的数据保持时间为20年,25°C下为1078年。
Mission Profile 任务剖面
Mission Profile 任务剖面是在元器件或产品的生命周期内,经历的工作条件对时间的函数表达。不同的设备(通信设备、汽车、船舰、导弹),同样的元器件在不同场景(存储器在手机、汽车、通信设备等领域),其任务剖面不尽相同。例如同样的车规元器件,在汽车应用中,每天会有长达几小时的idle状态,而在通信设备中,其设计目标是全天候的运行。以下是几种对任务剖面的理解。
美军标 MIL-STD-721
(Definitions of Terms for Reliability and Maintainability)对任务剖面的定义为,从开始到完成指定任务的过程中,对产品所经历的事件和环境进行分阶段描述,包括任务成功以及失效的标准。
Mission Profile: A time-phased description of the events and environments an item experience from initiation to completion of a specified mission, to include the criteria of mission success or critical failures.
国军标 GJB451-90
(可靠性维修性保障性术语)对任务剖面的定义为,
任务剖面:产品在完成规定任务这段时间内所经历的事件和环境的时序描述。
IEC 61709:2017
(Electric components - Reliability - Reference conditions for failure rates and stress models for conversion)对任务剖面的定义为,元器件在产品生命周期内所经历的工作条件,包含各种影响其可靠性的环境因子,任务剖面将功能和环境条件定义为时间的函数,例如温度、电压等可能是稳定的常数,也可能随着时间周期性变化,或随机变化。
• During their life, components experience different conditions of use that represent the major factors affecting component reliability: the complex of these conditions is defined as mission profile.
• The mission profile defines the required function and the environmental condition as a function of time. This will vary according to the type of operation that is undertaken. This operation may be continuous over time at a fixed level, continuous over time at a variable level or sporadic over time at either a fixed level or a variable level , in some cases switch on and switch off could be significant and of more importance than the steady state operational conditions.
• Careful consideration of the mission profile is needed in order to fully understand how it affects the component reliability.
案例分析:基于任务剖面的通信设备中的存储器件可靠性评价
在无线接入网设备中,非易失性存储器面临两个挑战,即10年全天候的运行以及期间的高温挑战。以某产品型号中的存储器件为例:
擦写耐久方面
在该型号产品中,存储器件将处于p-SLC模式,经过评估,在产品生命周期内,对存储器件的磨损将低于厂商标称的寿命。Endurance方面的评估是重要的,否则可能会出现特斯拉Model S和Model X中eMMC相关的现场失效2。
温度方面
通过热仿真和过往现场数据的统计,得到以下近似的温度剖面(存储器件的壳温)。温度可能引发氧化层介质缺陷、漏电等现象,也会引发闪存存储单元的阈值电压漂移,导致数据保持相关的失效。
case Temperature | Duration per Day |
93.6 | 8 |
83.3 | 10 |
62.4 | 6 |
受益于Arrhenius方程(Arrhenius是瑞典科学家,毕业于Uppsala 大学,1903诺贝尔化学奖得主),我们可以从统计学角度预测温度相关加速因子。
case Temperature | Duration | AF |
93.6 | 8 小时/天 | 0.568 |
83.3 | 10 小时/天 | 0.374 |
62.4 | 6 小时/天 | 0.054 |
总结
室外基站复杂的工况和严苛的运行环境,加上半导体元器件的参数及可靠性对温度敏感,基于任务剖面的器件评估对设备商和元器件供应商都具有一定价值。
参考文献
1. 中国移动研究院.5G基站节能技术白皮书. 2020-08
2. U.S. Department of Transportation. Burned-out flash crippling tesla model S and X units, 2019-12.