一、先搞清楚:AI芯片有哪几条技术路线?
讨论AI芯片,必须先理解一个底层问题:AI芯片的核心任务是什么?答案就两个字——矩阵乘法。
无论是训练GPT还是推理ChatGPT,底层80%以上的计算都是大规模矩阵乘法。所有AI芯片的设计,本质上都在回答同一个问题:如何最高效地完成矩阵乘法?
? 三条路线,三种答案
三者本质上是"灵活性 vs 能效比"的权衡。这不是设计偏好,而是商业模式决定的必然选择。
1️⃣ 通用GPU:硬件固定、软件灵活
采用数万个小型通用计算单元(CUDA Core),通过软件配置适应不同算法。硬件出厂后固定不可变,但软件驱动可以不断优化迭代。
2️⃣ 专用ASIC:硬件绑定算子、能效极致
专为矩阵乘法等密集计算电路级定制。大量脉动阵列(Systolic Array)替代通用计算单元,用硬件布线直接实现矩阵乘法,几乎不留冗余电路。
核心要点:ASIC绑定的是"矩阵乘法"而非某个具体模型架构。Transformer、CNN、RNN的底层都是矩阵乘法,所以都能跑。
3️⃣ 类GPU(DCU):中间地带
借鉴GPU的并行计算阵列布局,但指令集和硬件实现与NVIDIA不完全相同。以海光深算系列为例,基于AMD GCN架构演进。
原生不支持CUDA(需兼容层),比ASIC灵活,比通用GPU省电,迁移成本比ASIC低但比英伟达原生高。
各厂商技术路线一览
| 通用GPU | |||
| 专用ASIC | |||
| PPU | |||
| 类GPU(DCU) |
英伟达其实已经在做了——GPU里的Tensor Core就是ASIC化的矩阵乘法单元。现代AI GPU = 通用计算 + ASIC加速的混合体。但英伟达不能全ASIC化,因为它的护城河是全球CUDA生态的兼容性。一旦硬件只认特定算法,旧代码会失效,开发者会流失。CUDA Core的通用性,是英伟达对不确定性的对冲。
ASIC的风险对所有厂商一样,但承受方式不同。谷歌TPU和阿里PPU是自研自用,可以内部决定哪些workload跑ASIC、哪些跑GPU,风险可控;寒武纪聚焦推理市场来降低押错概率——推理场景的算子比训练稳定得多。而英伟达作为全球通用平台,必须保证任何代码都能跑。
ASIC绑定的是"矩阵乘法"而非"Transformer"。CNN、RNN、Transformer、Mamba底层都是大规模矩阵乘法。真正能淘汰ASIC的,是完全抛弃矩阵运算的新计算范式——短期内极难发生。
二、全球AI芯片竞争格局
全球AI加速器市场,英伟达市场份额超过80%。但2025-2026年,格局正在发生深刻变化。
8大厂商产品速览
三、英伟达:全球AI算力的绝对霸主
英伟达采取"一年一代"的快速迭代策略,从2024年Blackwell到2026年Rubin,再到2028年Feynman,持续压缩竞争对手的追赶窗口。
核心护城河
? CUDA生态:全球超过500万开发者,软件壁垒几乎不可逾越
? 半ASIC策略:通用CUDA Core + 专用Tensor Core并存
? 系统级创新:NVLink互联、NVL72/144集群、液冷数据中心
? 一年一代:竞争对手刚追上上一代,新一代已发布
? 推理优化:NIM微服务 + Dynamo引擎,Token成本降至十分之一
? 硅光互联:GTC 2026发布硅光芯片,解决互联带宽瓶颈
四、谷歌TPU:推理时代的隐形巨头
谷歌是唯一能在AI算力领域与英伟达正面对抗的厂商。TPU(张量处理单元)走ASIC定制路线,专为矩阵乘法密集型计算设计。
TPU能效已追上英伟达,为何Google仍采购GPU?
❶ 客户需求:Google Cloud企业客户指名要NVIDIA GPU,代码基于CUDA,只卖TPU会丢客户
❷ CUDA生态:数百万开发者的代码基于CUDA,TPU的MLIR/Coral生态差距仍大
❸ 通用性:TPU对Transformer友好,但CV、HPC等场景GPU更灵活,Google内部也是混用
❹ 供应链对冲:全押TPU意味着制造依赖单一供应商,采购GPU可以分散风险
五、华为昇腾:国产AI算力的领军者
受制于先进制程获取限制,华为选择了"超节点"集群路线——通过系统级创新弥补单芯片差距。
? 全栈自主:芯片 + HCCS互联 + CloudMatrix集群 + CANN/MindSpore
? 超节点架构:CloudMatrix 384集群算力媲美NVL72
? 生态适配:DeepSeek等大模型已优先适配,PyTorch兼容性持续改善
? 市场份额:2025年中国约20%,2026年预计接近50%
六、阿里平头哥PPU:互联网巨头的自研突围
PPU(Parallel Processing Unit)是2025年AI芯片市场最大的黑马。"PPU"而非"GPU"的命名本身就是品牌策略——去掉"Graphics"的图形包袱,与NVIDIA概念拉开距离。
? 自研自用优先:先服务阿里内部业务,场景固定,风险可控
? 双线布局:含光(推理ASIC)+ PPU + 倚天CPU
? 命名策略:"PPU"强调并行计算,突出独立技术路线
七、海光信息:CPU+DCU双轮驱动
国内少有的"CPU+DCU"双产品线厂商,2016年获得AMD技术授权,具有x86生态天然兼容优势。
? 类CUDA架构:基于AMD GCN演进,CUDA代码迁移成本最低
? x86协同:CPU+DCU整机方案成熟,信创市场主力
? 深算三号:7nm,性能再翻倍,已完成字节/阿里测试
? DeepSeek适配:已完成国产化适配
八、寒武纪:国产云端AI芯片龙头
成立于2016年,中国AI芯片最早拓荒者之一。2025年营收同比增长超40倍,首次扭亏为盈。
? ASIC架构:针对矩阵乘法深度优化,能效比高
? 推理市占第一:国产云端推理市场领先
? 策略选择:优先固守推理——算子稳定,押错风险更低
? 思元590:7nm云端训练芯片,对标A100
九、摩尔线程:全功能GPU新势力
定位全功能国产GPU,2025年12月上市科创板。新架构"花港"实现FP4~FP64全精度覆盖,2026年推出华山训推一体芯片,目标冲击十万卡集群。
? 全功能GPU:AI计算 + 图形渲染,真正的通用GPU
? MUSA软件栈:自研CUDA兼容层
? 华山芯片(2026):AI训推一体,超大规模智能计算
十、沐曦:从零自研的国产GPU新锐
国内少数坚持"从零到一"自主研发核心GPU IP的企业,不依赖国外IP授权。
? 曦云C600:性能介于A100和H100之间,2025年底量产
? 曦云C700:投资20.4亿元,2026Q2流片
? 全栈自研IP:AI训练+推理+通用计算+渲染四合一
? 标准化连接:PCIe 5.0、CXL 3.0、以太网等开放标准
十一、竞争格局与趋势判断
五大趋势
1️⃣ 推理驱动时代到来:2026年AI推理需求首次超过训练,能效比成核心指标
2️⃣ 国产替代加速:中国AI芯片自研率从15%→45%,2027年有望突破60%
3️⃣ 集群化竞争:单芯片差距缩小,竞争重心转向互联和系统级方案
4️⃣ 一年一代节奏:英伟达带动全行业加速迭代,落后两代即淘汰
5️⃣ 软件生态是终极壁垒:硬件差距可追赶,CUDA护城河短期难逾越
各厂商综合评分


