推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

【行业洞察】DeepSeek效应:低成本训练路线,是天才还是搅局者?

   日期:2026-06-25 06:45:23     来源:网络整理    作者:本站编辑    评论:0    
【行业洞察】DeepSeek效应:低成本训练路线,是天才还是搅局者?

博士算力猎场 · 2026年6月25日 6:00 · 行业洞察

Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家


当所有人都在比谁买的GPU多、谁烧的钱狠的时候,DeepSeek用少得可怜的GPU训出了世界级的大模型。

这件事在行业里引发了巨大的争议。有人说它是天才,有人说它走了捷径。今天不站队,只拆解:DeepSeek的低成本路线到底是什么?它对算力产业链意味着什么?


DeepSeek到底省了多少钱?

维度

行业平均水平(GPT-4o级)

DeepSeek V3 R1

差距

训练成本(公开数据)

~1亿USD+

~557万USD

不到1/18

GPU用量(估算)

~10,000颗H100 × 3个月

~2,048颗H800 × 2个月

GPU数量少5倍,时间少1/3

训练效率

基准

约为行业平均的5-8倍

557万美金训练出一个性能媲美GPT-4o深度思考模型。行业平均要花1亿美金以上。差了将近20倍。

更厉害的是,DeepSeek V4已经适配了华为昇腾910C和950PR,未来还将适配华为950 DT。在NVIDIA GPU被卡脖子的背景下,DeepSeek在国产芯片上跑通了大模型训练——这件事的意义,怎么评价都不过分。


DeepSeek做了什么不一样的事?

核心技术手段拆解:

技术手段

说明

节省效果

MoE(混合专家)架构

模型参数虽大,但每次推理只激活一部分专家

训练计算量大幅降低

FP8混合精度训练

用8位浮点代替16位/32位

显存占用减半,计算速度翻倍

Multi-head Latent Attention

压缩KV Cache

显存占用降低50-70%

高效数据管线

数据质量筛选+合成数据

减少无效训练迭代

工程极致优化

通信/调度/容错全部重做

集群利用率从60%提升到90%+

核心不是"少买GPU",而是"让每一颗GPU干更多的活"。DeepSeek的集群利用率据传超过90%,而行业平均水平在60-70%之间。光是这一个指标的差距,就意味着同样的GPU数量,DeepSeek能多产出30-50%的训练计算量。


对算力产业链的冲击

影响方

影响

方向

GPU需求总量

如果更多公司学DeepSeek,训练同等模型所需GPU减少

利空

算力效率优化

倒逼全行业提升集群利用率和训练效率

利好(技术驱动)

NVIDIA定价权

"不一定要买最多的卡"→削弱"越多越好"的叙事

中性偏空

国产GPU

同样的钱能训出更好的模型→国产GPU的性价比优势放大

利好

AI创业公司

训练门槛降低→更多小公司能玩得起大模型

利好


DeepSeek路线能复制吗?

维度

可复制性

原因

MoE架构

★★★★☆

技术公开,PyTorch原生支持

FP8训练

★★★☆☆

需要硬件支持(H100/B300),调参难度大

MLA注意力

★★★☆☆

架构创新,需要深度定制

集群利用率90%+

★★☆☆☆

最难的部分——需要极强的工程团队

数据管线

★★★★☆

方法论公开,执行靠团队

Dr.Wu判断:DeepSeek的技术路线可以学习,但完整复制很难。瓶颈不在技术,在工程能力。把集群利用率从60%提到90%,需要的是顶级的分布式系统工程团队——这种团队在国内屈指可数。

但趋势已经形成:"堆卡"不是唯一的路。未来12个月,会有越来越多的公司开始重视训练效率优化,而不是一味地买更多的GPU。


DeepSeek V4:适配华为昇腾,才是真正的奇迹

如果说V3 R1证明了DeepSeek能"省钱训好模型",那V4做的事情更狠——证明了不靠NVIDIA也能训出顶级模型。

版本

适配芯片

意义

DeepSeek V3 R1

NVIDIA H800

用更少的NVIDIA GPU训出GPT-4o级深度思考模型

DeepSeek V4

华为昇腾910C、950PR

在国产芯片上跑通大模型训练

DeepSeek V4(未来)

华为950 DT

适配下一代国产GPU

这件事为什么是奇迹?因为大模型训练对GPU的软件生态依赖极深。CUDA生态积累了15年,绝大多数训练框架、算子库、通信库都是为NVIDIA GPU写的。DeepSeek V4要在昇腾上跑通,意味着:

  • 重写或适配训练框架(基于华为CANN/MindSpore)
  • 重新调优MoE路由和FP8训练参数
  • 解决昇腾与NVIDIA在精度、通信、调度上的差异

DeepSeek不只是在省钱,它在证明一条完整的国产算力路线是可行的。华为昇腾提供芯片,DeepSeek提供训练方法,两者结合就是一个不依赖NVIDIA的大模型训练方案。


对算力猎场读者的建议

身份

建议

智算中心运营方

提供"效率优化"增值服务,不只卖裸算力

AI创业公司

认真评估MoE+FP8路线,可能帮你省80%的训练成本

投资人

关注"算力效率"赛道的公司(调度优化、训练框架)

GPU采购方

不必盲目追最大规模,根据实际需求规划

DeepSeek证明了一件事:算力贵的时候,聪明比有钱更重要。


关注算力产业趋势?加入算力猎场,和深度思考者同行。

加入方式

信息

加 Dr. Wu 微信

michaelwqs

加 Alan Ng 微信

alanngw

扫码入群

扫描下方二维码,加入算力猎场微信群

[算力猎场群二维码] 

群里有算力产业链的决策者、投资人和技术专家,每日独家分析和行业前瞻。


博士算力猎场 | 行业洞察 Dr. Wu | UCLA Ph.D | 近30年ICT/AI/分布式计算领域资深专家

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON