推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

从英伟达财报来看大模型背后真正的“木桶效应”

   日期:2026-03-10 17:17:42     来源:网络整理    作者:本站编辑    评论:0    
从英伟达财报来看大模型背后真正的“木桶效应”
前言:NVIDIA载至2025年1月26日的第四季度收入为393亿美元,较上一季度增长12%,较去年同期增长78%。

季度GAAP摊薄每股收益为0.89美元,较上一季度增长14%,较去年同期增长82%。季度非GAAP摊薄每股收益为0.89美元,较上一季度增长10%,较去年同期增长71%。


2025财年收入较上一财年增长114%,达到1.305亿美元。全年GAAP摊薄每股收益为2.94美元,较上一财年增长147%。全年非GAAP摊薄每投收益为2.99美元,较上一财年增长130%。


NVIDIA创始人兼首席执行官黄仁勋表示:"很高兴看到Blackwell拥有如此强劲的需求,这是因为推理型 A引入了新的扩展定律,即增加训练算力可以使模型变得更智能,而增加长思考算力则可以让答案变得更精准。


"我们已经成功实现了BlackwellAl超级计算机的大规模生产,上市第一个季度的销售额就达到了数十亿美元。AI正在以惊人的速度发展,代理式AI和物理AI为下一波AI铺平道路,将彻底变革规模庞大的行业。


NVIDIA将于2025年4月2日向截止至2025年3月12日登记在册的所有股东支付每股0.01美元的下一季度现金红利。

透过英伟达财报看大模型背后真正的“木桶效应”。当模型参数迈进万亿门槛,训练集群从万卡奔向十万卡,一个尴尬的局面开始浮现——连接,成了短板。算力堆上去了,但卡与卡之间“等数据”的时间越来越长。大模型训练不容半点延迟,在AI算力进入集群竞争的时代,网络已经不是配角,而是决定整个系统效率的“基础”。

算力是“单兵”,网络才是“集团军”


过去大家盯着英伟达,看的是 GPU 算力强不强,就像在看一个士兵能不能打。但现在大模型进入了“万亿参数”时代,单兵作战早就过时了,现在的玩法是十万大军协同。


痛点在于“沟通成本”: 就像一个大工程,如果 10 万个工人都挤在一个工地上,但传达指令全靠嗓门喊,那效率肯定极其低下。


英伟达的聪明之处: 财报里那 110 亿的网络营收,其实是老黄在卖“高效对讲机”和“高速公路”。他明白,如果网络拉胯,哪怕 H200/Blackwell 的算力再猛,也有一半时间在等数据,那是极大的浪费。

英伟达全年收入突破310亿美元,其中第四季度网络营收110亿,同比增长263%。核心看点是这个增速十分诱人。

为什么 InfiniBand(IB)是老黄的护城河?


IB 网络,其实就是给数据开了个“ VIP 专线”。

不讲道理的快: 它是原生为了高性能计算设计的,延迟低到纳秒级。


不掉链子的稳: 它有流控机制,出发前先看目的地堵不堵。在训练动辄几周、几个月的大模型时,“不丢包”就是生产力。


相比之下,RoCE(基于以太网的方案)更像是把普通马路拓宽,虽然便宜、通用,但真到了“十万卡”这种极限流量下,管理成本和稳定性确实不如 IB 这种“私家路”来得纯粹。


思维延伸:国产算力的“破局点”


国内厂商在原生 RDMA(远程直接内存访问)上的突破,是这盘棋的关键落子。Cyber从三个维度解读延伸一下:


1. 从“修补”到“重构”


长期以来,国产智算中心大多是在以太网上打补丁(RoCE)。如果真有厂商能拿出对标 IB 的原生方案,意味着我们不再是“在别人的地基上盖房子”,而是开始自己平地起高楼。这种底层协议的自主,比单颗芯片的制程突破,对产业集群的意义更大。

跳出单纯的 GPU 芯片逻辑,转而关注网络通信(Scale-out)与片间互联(Scale-in)这两个核心领域。对标 IB 的原生方案:从“以太网改良”向“RDMA 原生”进发。目前全球 AI 集群主要依赖两条腿走路:以太网(RoCE)和 IB。中国市场目前的优势在以太网,但正在攻坚原生高性能协议。盛科通信目前国内最接近“在协议层解决拥堵”的公司。虽然目前主攻以太网交换芯片,但其高端产品已开始集成高性能 RDMA(远程直接内存访问) 技术,这是对标 IB 确定性低延迟的关键。如果国产算力要走一条“高性能以太网”来替代 IB 的路,盛科是底层的“修路人”。

2. 软件生态的“二次解耦”


英伟达强不仅强在硬件,更强在 CUDA 加上通信库(NCCL)。国产方案如果能在互联硬件上追平,接下来最大的挑战就是软件协议栈的兼容性。如果能让开发者无缝从英伟达环境切换过来,那才是真正的“杀手锏”。

软件协议栈的兼容性:突破“CUDA + NCCL”的软件护城河,英伟达真正的墙不只是硬件,而是 NCCL和 CUDA 的深度绑定。国产方案必须在软件栈上做到“无感替换”。海光的 DCU是目前国内对 CUDA 生态兼容性最好 的产品之一。其软件栈构建了“类 CUDA”的环境,这意味着开发者在进行多卡通信调度时,迁移成本极低。在“原生战场”上,海光通过软件层面的高度适配,降低了对特定物理网络协议(如必须依赖 IB)的依赖。而寒武纪的思元系列拥有自研的 CNCL通信库,专门对标英伟达的 NCCL。核心看能否在十万卡级别下,通过软件算法解决由于物理网络(如 RoCE)不稳带来的数据同步丢失问题。

3. “木桶效应”的补齐


如果把 AI 算力比作一桶水,芯片是长板,网络就是那块最短的短板。以前我们拼命接长板(堆 GPU 数量),现在终于意识到要补短板(搞高速互联)。这个转向说明国内的 AI 基建已经从“堆料阶段”进入了“精细化运营阶段”。

高速互联(Scale-in):对标 NVLink/NVSwitch 的“片间通信”。除了卡与卡之间的网络,芯片内部和服务器内部的“高速互联”是另一个高价值赛道。随着 Blackwell 架构推向市场,PCIe 6.0/7.0 以及 CXL(计算快速链接)协议变得至关重要。澜起的 CXL MXC 芯片和 PCIe Retimer 芯片是解决“算力孤岛”的关键。它本质上是在做“芯片级的交通管制”,确保数据在 CPU、GPU 和内存之间以极高速度流动,这是国产算力集群对标 NVLink 架构的基础元件。而中际、新易胜是英伟达 IB 网络和 NVLink 架构中光模块的核心,高性能网络落地的硬件载体。

AI 竞赛下半场,拼的是“系统工程”

如果说 AI 的上半场是“挖金矿”(买 GPU),那下半场就是“建电网和修路”(搞互联)。算力的尽头不是芯片,是系统。 当我们不再只讨论单一芯片的跑分,转而讨论 RDMA 丢包率、LPO 功耗和软件栈迁移成本时,国产算力才真正进入了“专业玩家”的决赛圈。

小结一下


老黄的财报其实告诉了全球玩家一个真理:在 AI 时代,连接力就是战斗力。 英伟达现在的领先,本质上是“生态位”的领先——他不仅卖最好的斧头(GPU),还承包了整片森林的运输道路(IB 网络)。国产算力厂商现在瞄准这个“基础”开火,路子确实没偏。虽然这条路很难,但这是通往未来的门票,必须拿到手。

如果关注“老黄护城河被瞄准”这个国产算力逻辑,建议可以参考下面这个分层观察视角:
1. 协议层(最难啃的骨头): 寻找在 RDMA、RoCE v2 优化上有突破的企业。盛科是目前 A 股中稀缺的交换芯片标的。
2. 软件栈(兼容性命门): 海光凭借对 CUDA 极高的适配度,是目前国内最能承接“生态迁移”流量的上市公司。
3. 连接件(物理基础): 澜起科技 在 CXL 和 PCIe 领域的卡位,决定了国产 GPU 能不能从“单兵”串联成“集群”。中际、新易胜则只要 AI 集群向“十万卡”演进,它们就是确定性最强的受益者。
免责声明: 本文内容整理自Cyber团队内部观点,仅代表市场观察,不构成任何具体的投资建议或决策依据。市场有风险,严肃投资,审慎评估。
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON