博士算力猎场 · 2026年6月25日 6:00 · 行业洞察
Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家

当所有人都在比谁买的GPU多、谁烧的钱狠的时候,DeepSeek用少得可怜的GPU训出了世界级的大模型。
这件事在行业里引发了巨大的争议。有人说它是天才,有人说它走了捷径。今天不站队,只拆解:DeepSeek的低成本路线到底是什么?它对算力产业链意味着什么?

DeepSeek到底省了多少钱?
维度 | 行业平均水平(GPT-4o级) | DeepSeek V3 R1 | 差距 |
训练成本(公开数据) | ~1亿USD+ | ~557万USD | 不到1/18 |
GPU用量(估算) | ~10,000颗H100 × 3个月 | ~2,048颗H800 × 2个月 | GPU数量少5倍,时间少1/3 |
训练效率 | 基准 | 约为行业平均的5-8倍 | — |
557万美金训练出一个性能媲美GPT-4o深度思考模型。行业平均要花1亿美金以上。差了将近20倍。
更厉害的是,DeepSeek V4已经适配了华为昇腾910C和950PR,未来还将适配华为950 DT。在NVIDIA GPU被卡脖子的背景下,DeepSeek在国产芯片上跑通了大模型训练——这件事的意义,怎么评价都不过分。

DeepSeek做了什么不一样的事?
核心技术手段拆解:
技术手段 | 说明 | 节省效果 |
MoE(混合专家)架构 | 模型参数虽大,但每次推理只激活一部分专家 | 训练计算量大幅降低 |
FP8混合精度训练 | 用8位浮点代替16位/32位 | 显存占用减半,计算速度翻倍 |
Multi-head Latent Attention | 压缩KV Cache | 显存占用降低50-70% |
高效数据管线 | 数据质量筛选+合成数据 | 减少无效训练迭代 |
工程极致优化 | 通信/调度/容错全部重做 | 集群利用率从60%提升到90%+ |
核心不是"少买GPU",而是"让每一颗GPU干更多的活"。DeepSeek的集群利用率据传超过90%,而行业平均水平在60-70%之间。光是这一个指标的差距,就意味着同样的GPU数量,DeepSeek能多产出30-50%的训练计算量。

对算力产业链的冲击
影响方 | 影响 | 方向 |
GPU需求总量 | 如果更多公司学DeepSeek,训练同等模型所需GPU减少 | 利空 |
算力效率优化 | 倒逼全行业提升集群利用率和训练效率 | 利好(技术驱动) |
NVIDIA定价权 | "不一定要买最多的卡"→削弱"越多越好"的叙事 | 中性偏空 |
国产GPU | 同样的钱能训出更好的模型→国产GPU的性价比优势放大 | 利好 |
AI创业公司 | 训练门槛降低→更多小公司能玩得起大模型 | 利好 |

DeepSeek路线能复制吗?
维度 | 可复制性 | 原因 |
MoE架构 | ★★★★☆ | 技术公开,PyTorch原生支持 |
FP8训练 | ★★★☆☆ | 需要硬件支持(H100/B300),调参难度大 |
MLA注意力 | ★★★☆☆ | 架构创新,需要深度定制 |
集群利用率90%+ | ★★☆☆☆ | 最难的部分——需要极强的工程团队 |
数据管线 | ★★★★☆ | 方法论公开,执行靠团队 |
Dr.Wu判断:DeepSeek的技术路线可以学习,但完整复制很难。瓶颈不在技术,在工程能力。把集群利用率从60%提到90%,需要的是顶级的分布式系统工程团队——这种团队在国内屈指可数。
但趋势已经形成:"堆卡"不是唯一的路。未来12个月,会有越来越多的公司开始重视训练效率优化,而不是一味地买更多的GPU。
DeepSeek V4:适配华为昇腾,才是真正的奇迹
如果说V3 R1证明了DeepSeek能"省钱训好模型",那V4做的事情更狠——证明了不靠NVIDIA也能训出顶级模型。
版本 | 适配芯片 | 意义 |
DeepSeek V3 R1 | NVIDIA H800 | 用更少的NVIDIA GPU训出GPT-4o级深度思考模型 |
DeepSeek V4 | 华为昇腾910C、950PR | 在国产芯片上跑通大模型训练 |
DeepSeek V4(未来) | 华为950 DT | 适配下一代国产GPU |
这件事为什么是奇迹?因为大模型训练对GPU的软件生态依赖极深。CUDA生态积累了15年,绝大多数训练框架、算子库、通信库都是为NVIDIA GPU写的。DeepSeek V4要在昇腾上跑通,意味着:
重写或适配训练框架(基于华为CANN/MindSpore) 重新调优MoE路由和FP8训练参数 解决昇腾与NVIDIA在精度、通信、调度上的差异
DeepSeek不只是在省钱,它在证明一条完整的国产算力路线是可行的。华为昇腾提供芯片,DeepSeek提供训练方法,两者结合就是一个不依赖NVIDIA的大模型训练方案。
对算力猎场读者的建议
身份 | 建议 |
智算中心运营方 | 提供"效率优化"增值服务,不只卖裸算力 |
AI创业公司 | 认真评估MoE+FP8路线,可能帮你省80%的训练成本 |
投资人 | 关注"算力效率"赛道的公司(调度优化、训练框架) |
GPU采购方 | 不必盲目追最大规模,根据实际需求规划 |
DeepSeek证明了一件事:算力贵的时候,聪明比有钱更重要。
关注算力产业趋势?加入算力猎场,和深度思考者同行。
加入方式 | 信息 |
加 Dr. Wu 微信 | michaelwqs |
加 Alan Ng 微信 | alanngw |
扫码入群 | 扫描下方二维码,加入算力猎场微信群 |
[算力猎场群二维码]

群里有算力产业链的决策者、投资人和技术专家,每日独家分析和行业前瞻。
博士算力猎场 | 行业洞察 Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家



