
温馨提醒:本文来自”华为昇腾950系列NPU架构白皮书“,请登录全栈云技术知识下载,本号全栈云所有干货资料均上传至“全栈云技术知识”,可批量下载。
昇腾950 最绝的设计是一芯双构的差异化策略—— 共用同一套 Ascend 950 核心 Die,却衍生出 950PR 和 950DT 两款芯片,精准拿捏 AI 大模型 “Prefill(预填充)+Decode(解码)” 两大核心场景,拒绝 “一招鲜吃遍天” 的通用化妥协。
1. 昇腾 950PR:推理 Prefill 的 “效率之王”
主打大模型预填充、推荐系统等计算密集型场景,2026 年 3 月已实现规模量产。核心配置拉满:搭载自研 HiBL 1.0 高带宽内存,128GB 容量 + 1.6TB/s 带宽,原生支持FP8/MXFP8 / 自研 HiF8 低精度格式,单芯片 FP8 算力达 1 PFLOPS,专为 “大块数据批量处理” 优化。简单说,用户输入长文本时,950PR 能快速处理海量数据、生成 KV 缓存,快、省、稳,是推理集群的 “流量担当”。
2. 昇腾 950DT:训练 / 解码的 “性能天花板”
瞄准大模型训练、长文本解码,预计2026 年 Q4 量产。配置直接拉满:升级 HiZQ 2.0(朱雀)内存,144GB 超大容量 + 4TB/s 史诗级带宽,比PR 提升 1.5 倍,FP4 算力飙升至 2 PFLOPS,专为 “token 逐一生成” 的带宽瓶颈场景量身定制。跑千亿参数模型训练、长文本对话时,950DT 能喂饱 GPU 的 “数据胃口”,彻底解决 “算力够、带宽拖后腿” 的痛点。





































‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ END ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。
温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。




