博士算力猎场· 2026年6月29日 06:00 · 行业洞察
Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家

NVIDIA是全球算力市场的绝对霸主。但它最大的客户,正在想方设法不再依赖它。
AWS、Google、微软——这三家买走了全球最多NVIDIA GPU的云厂商,同时也是自研AI芯片投入最大的公司。它们想做什么?能成吗?对算力市场格局有什么影响?
为什么云厂商要自研芯片?
动机 | 说明 |
成本压力 | NVIDIA的毛利率高达~75%,云厂商买GPU的成本是最大的支出项之一 |
供应链控制 | GPU供货随时可能被卡脖子(产能、政策、黄仁勋一句话) |
差异化竞争 | 自研芯片=独特的技术护城河,让竞争对手无法复制 |
定制化需求 | 自研芯片可以针对自己的工作负载做深度优化,效率更高 |
战略独立性 | 不想让一家公司垄断自己最核心的基础设施 |

三大云厂商的自研芯片路线图
AWS:Trainium系列——训练专用
产品 | 定位 | 状态 | 关键数据 |
Trainium | 训练用AI加速器(第一代) | 已上线 | UltraCluster可组16,000颗 |
Trainium 2 | 训练用(第二代) | 已上线(EC2 Trn2实例) | 每颗~11.5 PFLOPS(FP16),NeuronLink互联 |
Trainium X | 下一代 | 路线图中 | 对标NVIDIA旗舰 |
Inferentia | 推理专用 | 已成熟 | 业界最成熟的云推理芯片之一 |
AWS的策略:用自研芯片承接自家云业务,降低NVIDIA依赖,同时给客户提供"更便宜的AI算力"作为差异化卖点。
挑战:软件生态(Neuron SDK)与CUDA差距大,主流AI框架的支持完整度仍在追赶中。很多模型需要针对性适配才能跑。
Google:TPU系列——最成熟的非GPU路线
产品 | 定位 | 状态 | 关键数据 |
TPU v4 | 大规模训练 | 已上线 | Google内部大规模部署 |
TPU v5p | 旗舰训练版 | 已上线 | 可组8,960颗超级Pod |
TPU v5e | 性价比推理版 | 已上线 | 推理成本比GPU低30-50% |
TPU v6(Trillium) | 下一代 | 已发布 | 性能比v5p提升4.7倍 |
Google的策略:最早押注TPU(2016年就开始),现在TPU已经是Google内部AI基础设施的核心——Gemini的训练就主要跑在TPU上。
挑战:JAX是TPU的原生框架,但全球大多数AI开发者用的是PyTorch/CUDA。Google的TPU生态对外部用户的吸引力,远不及对Google自己的价值。
微软:Maia 100——最晚入场,目标明确
产品 | 定位 | 状态 |
Azure Maia 100 | Azure AI基础设施专用 | 已部分部署 |
Azure Cobalt 100 | Arm架构CPU(配合Maia) | 已上线 |
微软的策略:跟AWS和Google相比入场晚,但目标非常明确——把OpenAI的工作负载从NVIDIA迁移到Maia,彻底消化自家最大的算力成本。
挑战:Maia 100还处于早期阶段,实际性能数据和生产部署规模尚未充分验证。

自研芯片面临的共同障碍
障碍 | 说明 | 难度 |
CUDA壁垒 | 全球AI代码库深度绑定CUDA,迁移成本极高 | ★★★★★ |
软件生态 | 自研芯片的算子库、框架支持永远在追赶 | ★★★★☆ |
产品迭代节奏 | NVIDIA每年一代新品,自研团队很难跟上 | ★★★★☆ |
规模经济 | NVIDIA的出货规模让成本持续下降,自研芯片量不够则成本高 | ★★★☆☆ |
人才争夺 | 顶级芯片设计人才稀缺,NVIDIA出价最高 | ★★★☆☆ |

自研芯片对NVIDIA市场的真实冲击
这是最重要的问题。答案是:短期冲击有限,中长期值得关注。
维度 | 短期(1-2年) | 中期(3-5年) |
NVIDIA市场份额 | 基本不变(90%+) | 可能降至75-85% |
云厂商自研占比 | 内部使用15-20% | 内部使用35-50% |
外部客户影响 | 几乎感受不到 | 开始有差异化选择 |
NVIDIA营收影响 | 基本无影响(云厂商仍买大量GPU) | 增速或边际放缓 |
关键点:云厂商自研芯片主要是"内部消化",不对外大规模销售。它降低的是云厂商自己买NVIDIA GPU的数量,而不是在市场上与NVIDIA竞争。
对算力产业链的影响
影响方向 | 具体内容 |
NVIDIA的真正威胁 | 不是自研芯片,而是AMD MI450这类外部商用竞品 |
国内云厂商的启示 | 阿里(含光800)、百度(昆仑芯)也在走自研路线,参考价值高 |
对客户的实际意义 | 未来几年,AWS/Google/Azure上的AI算力会有更多非NVIDIA选项 |
定价压力 | 云厂商自研规模扩大后,会在推理场景形成价格竞争,有利于降低AI服务成本 |
Dr.Wu的最终判断:云厂商自研芯片这件事,更多是"降低依赖"而非"消灭NVIDIA"。在我有生之年,CUDA的生态壁垒都很难被彻底打穿。但5年后,云厂商内部自研芯片的工作负载占比有望从今天的20%提升到40-50%——这意味着NVIDIA的增速会放缓,但不意味着颠覆。
对国内的启示更大:国内大厂(华为、阿里、百度)的自研芯片路线,参照的正是这个逻辑——先自用,再生态,再开放商用。昇腾950PR已售75万+片,走到了第三步。
关注算力产业格局深度分析?加入算力猎场,和洞察全局的人一起看。
加入方式 | 信息 |
加 Dr. Wu 微信 | michaelwqs |
加 Alan Ng 微信 | alanngw |
扫码入群 | 扫描下方二维码,加入算力猎场微信群 |
[算力猎场群二维码]

群里有算力产业链的决策者、投资人和技术专家,每日独家分析和行业前瞻。
博士算力猎场 | 行业洞察 Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家