《昇腾 950 NPU架构白皮书》——950PR和950DT是同源、同die芯片,不是两款芯片
最近看到白皮书,可能大家有个疑问:昇腾950PR和950DT到底有啥区别?是不是华为针对于训练和推理,设计了两款不同的AI芯片?今天我们直接对着官方白皮书揭示真相——这俩根本不是独立设计研发的两款芯片,而是基于同一套基础架构、工艺、底层IP开发的系列芯片/多SKU,内核设计同源,仅通过硬件裁剪、功能屏蔽、封装搭配、芯粒组合、外围配置区分定位,称为同源芯片。同一片晶圆上诞生的芯片,只是因为die的质量不同,被划分成了不同SKU,甚至连搭配的HBM内存都跟着量身定制。而谷歌针对推理、训练,分别设计了TPU 8i和8t,芯片die的设计层面是不一样的,这是有本质的区别。我认为还需要区分“Binning(功能屏蔽)”和“产品定位”两个概念。一、Binning(功能屏蔽)
SKU | CubeCore | VectorCore | 算力BF16/FP16 |
950DT(D3) | 36 | 72 | 547TFLOPS |
950DT(D2) | 32 | 64 | 486TFLOPS |
950DT(D1) | 28 | 56 | 425 TFLOPS |
950PR(P2) | 32 | 64 | 486TFLOPS |
950PR(P1) | 28 | 56 | 425TFLOPS |
950DT(D2/32核)=950PR(P2/32核)950DT(D1/28核)=950PR(P2/28核)这说明DT和PR并不是两颗完全不同的芯片,很可能就是同一颗Die,因为配置形成不同SKU。(一)Binning(功能屏蔽)
第一种可能是纯Binning(功能屏蔽),例如制造出来100颗芯片,类似英伟达的做法,这是半导体行业最常见做法,不同的是950是因为良率问题,需要筛选分类,屏蔽不良的CORE。同Die(GA100),80GB HBM2e、算力完全一样唯一差异:NVLink带宽从600GB/s降到400GB/s(合规限制)本质:没坏核,只是把互联带宽“软限制”,属于Binning的一种(功能屏蔽)。(二)HBM配置差异
但还有第二层意思——白皮书里面有一个关键差异在HBM配置。型号 | 内存 | 带宽 |
950PR | 128GB/112GB | 1.6TB/s/1.4TB/s |
950DT | 144GB | 4TB/s |
这是在简单筛片基础上,根据不同SKU配以不同的内存。因为HBM带宽由1.6TB/s变化到4TB/s,HBM代际不同,HBM堆栈数不同,而MemoryController配置不同导致的。二、产品定位
根据上面分析,950DT和950PR更可能是:同一个ComputeDie、DavinciDie、36Cube、72Vector,统一设计。然后DT搭配更好的HBM、更大的容量、更高带宽,而PR搭配较少HBM、较低带宽,同时再叠加Binning。(一)一级筛选
SKU | Cube Core | Vector Core | 算力BF16/FP16 |
950DT(D3) | 36 | 72 | 547 TFLOPS |
|
950PR(P2) | 32 | 64 | 486 TFLOPS |
950PR(P1) | 28 | 56 | 425 TFLOPS |
D3/P2 | 1.1250 | 1.1250 | 1.1255 |
D3/P1 | 1.2857 | 1.2857 | 1.2871 |
计算之后,基本一致。也就是说明:与950DT(D3)相比,950PR(P2)相当于直接屏蔽了4个CubeUnit。总unit Die | 损坏/屏蔽Unit | 芯片UnitDie | 对应芯片 |
36UnitDie | 坏0个 | 36 | 950DT(D3) |
坏4个 | 32 | 950DT(D2)、950DT(D1)、950PR(P2) |
坏8个 | 28 | 950DT(D1)、950PR(P1) |
(二)产品化分类
32UnitDie既可以卖950DT-32,也可以卖950PR-32,区别来自HBM配置、封装配置、功耗墙、UB互联配置。“好的芯片,尽量用于DT,配好的HBM;质量差的芯片(坏掉更多的Unit),用于PR,低配内存”如果仅仅是良率分级,那么保留一个SKU就够了。之所以同时32CORE存在,很可能说明32核DT和32核PR面向的是不同系统市场。例如:DT→训练、PR→推理。即使核心数量相同,也通过HBM和互联配置进行区分。三、结论——950PR和950DT是同源芯片
因此我的结论是:同一批芯片经过测试后按质量不同来区分SKU,HBM和互联配置进行区分950PR、950DT。从白皮书数据看,950系列应该是同一个Davinci大Die衍生出来的产品系列,存在典型的CoreBinning(36→32→28)。DT和PR并非单纯由于Die质量等级差异,32核DT与32核PR同时存在,说明产品定位、HBM配置和系统级规格才是两者最核心的区别。更准确的说法应该是——950DT和950PR是同源芯片,通过“核心裁剪+HBM配置+系统定位”共同形成的多个SKU矩阵,一句话是“质量最好的芯片+高配HBM,卖DT;退档的芯片+低配内存,卖PR”。**************************************
欢迎加入我的知识星球:芯片新视界IC Vision-贝影Alpha
在这里,我们可以讨论国产芯片、逻辑晶圆厂的产能与进度、关于订单、产能等,获取有国外投行最新研报、重点股票的估值模型。还有本人对以半导体产业为主,及其他产业的研究分析,同时,更新国际媒体对国内最新的消息和解读。