推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

从英伟达财报来看大模型背后真正的“木桶效应”

日期：2026-03-10 17:17:42 来源：网络整理作者：本站编辑评论：0

前言：NVIDIA载至2025年1月26日的第四季度收入为393亿美元，较上一季度增长12%，较去年同期增长78%。

季度GAAP摊薄每股收益为0.89美元，较上一季度增长14%，较去年同期增长82%。季度非GAAP摊薄每股收益为0.89美元，较上一季度增长10%，较去年同期增长71%。

2025财年收入较上一财年增长114%，达到1.305亿美元。全年GAAP摊薄每股收益为2.94美元，较上一财年增长147%。全年非GAAP摊薄每投收益为2.99美元，较上一财年增长130%。

NVIDIA创始人兼首席执行官黄仁勋表示："很高兴看到Blackwell拥有如此强劲的需求，这是因为推理型 A引入了新的扩展定律，即增加训练算力可以使模型变得更智能，而增加长思考算力则可以让答案变得更精准。

"我们已经成功实现了BlackwellAl超级计算机的大规模生产，上市第一个季度的销售额就达到了数十亿美元。AI正在以惊人的速度发展，代理式AI和物理AI为下一波AI铺平道路，将彻底变革规模庞大的行业。

NVIDIA将于2025年4月2日向截止至2025年3月12日登记在册的所有股东支付每股0.01美元的下一季度现金红利。

透过英伟达财报看大模型背后真正的“木桶效应”。当模型参数迈进万亿门槛，训练集群从万卡奔向十万卡，一个尴尬的局面开始浮现——连接，成了短板。算力堆上去了，但卡与卡之间“等数据”的时间越来越长。大模型训练不容半点延迟，在AI算力进入集群竞争的时代，网络已经不是配角，而是决定整个系统效率的“基础”。

算力是“单兵”，网络才是“集团军”

过去大家盯着英伟达，看的是 GPU 算力强不强，就像在看一个士兵能不能打。但现在大模型进入了“万亿参数”时代，单兵作战早就过时了，现在的玩法是十万大军协同。

痛点在于“沟通成本”：就像一个大工程，如果 10 万个工人都挤在一个工地上，但传达指令全靠嗓门喊，那效率肯定极其低下。

英伟达的聪明之处：财报里那 110 亿的网络营收，其实是老黄在卖“高效对讲机”和“高速公路”。他明白，如果网络拉胯，哪怕 H200/Blackwell 的算力再猛，也有一半时间在等数据，那是极大的浪费。

英伟达全年收入突破310亿美元，其中第四季度网络营收110亿，同比增长263%。核心看点是这个增速十分诱人。

为什么 InfiniBand（IB）是老黄的护城河？

IB 网络，其实就是给数据开了个“ VIP 专线”。

不讲道理的快：它是原生为了高性能计算设计的，延迟低到纳秒级。

不掉链子的稳：它有流控机制，出发前先看目的地堵不堵。在训练动辄几周、几个月的大模型时，“不丢包”就是生产力。

相比之下，RoCE（基于以太网的方案）更像是把普通马路拓宽，虽然便宜、通用，但真到了“十万卡”这种极限流量下，管理成本和稳定性确实不如 IB 这种“私家路”来得纯粹。

思维延伸：国产算力的“破局点”

国内厂商在原生 RDMA（远程直接内存访问）上的突破，是这盘棋的关键落子。Cyber从三个维度解读延伸一下：

1. 从“修补”到“重构”

长期以来，国产智算中心大多是在以太网上打补丁（RoCE）。如果真有厂商能拿出对标 IB 的原生方案，意味着我们不再是“在别人的地基上盖房子”，而是开始自己平地起高楼。这种底层协议的自主，比单颗芯片的制程突破，对产业集群的意义更大。

跳出单纯的 GPU 芯片逻辑，转而关注网络通信（Scale-out）与片间互联（Scale-in）这两个核心领域。对标 IB 的原生方案：从“以太网改良”向“RDMA 原生”进发。目前全球 AI 集群主要依赖两条腿走路：以太网（RoCE）和 IB。中国市场目前的优势在以太网，但正在攻坚原生高性能协议。盛科通信目前国内最接近“在协议层解决拥堵”的公司。虽然目前主攻以太网交换芯片，但其高端产品已开始集成高性能 RDMA（远程直接内存访问）技术，这是对标 IB 确定性低延迟的关键。如果国产算力要走一条“高性能以太网”来替代 IB 的路，盛科是底层的“修路人”。

2. 软件生态的“二次解耦”

英伟达强不仅强在硬件，更强在 CUDA 加上通信库（NCCL）。国产方案如果能在互联硬件上追平，接下来最大的挑战就是软件协议栈的兼容性。如果能让开发者无缝从英伟达环境切换过来，那才是真正的“杀手锏”。

软件协议栈的兼容性：突破“CUDA + NCCL”的软件护城河，英伟达真正的墙不只是硬件，而是 NCCL和 CUDA 的深度绑定。国产方案必须在软件栈上做到“无感替换”。海光的 DCU是目前国内对 CUDA 生态兼容性最好的产品之一。其软件栈构建了“类 CUDA”的环境，这意味着开发者在进行多卡通信调度时，迁移成本极低。在“原生战场”上，海光通过软件层面的高度适配，降低了对特定物理网络协议（如必须依赖 IB）的依赖。而寒武纪的思元系列拥有自研的 CNCL通信库，专门对标英伟达的 NCCL。核心看能否在十万卡级别下，通过软件算法解决由于物理网络（如 RoCE）不稳带来的数据同步丢失问题。

3. “木桶效应”的补齐

如果把 AI 算力比作一桶水，芯片是长板，网络就是那块最短的短板。以前我们拼命接长板（堆 GPU 数量），现在终于意识到要补短板（搞高速互联）。这个转向说明国内的 AI 基建已经从“堆料阶段”进入了“精细化运营阶段”。

高速互联（Scale-in）：对标 NVLink/NVSwitch 的“片间通信”。除了卡与卡之间的网络，芯片内部和服务器内部的“高速互联”是另一个高价值赛道。随着 Blackwell 架构推向市场，PCIe 6.0/7.0 以及 CXL（计算快速链接）协议变得至关重要。澜起的 CXL MXC 芯片和 PCIe Retimer 芯片是解决“算力孤岛”的关键。它本质上是在做“芯片级的交通管制”，确保数据在 CPU、GPU 和内存之间以极高速度流动，这是国产算力集群对标 NVLink 架构的基础元件。而中际、新易胜是英伟达 IB 网络和 NVLink 架构中光模块的核心，高性能网络落地的硬件载体。

AI 竞赛下半场，拼的是“系统工程”

如果说 AI 的上半场是“挖金矿”（买 GPU），那下半场就是“建电网和修路”（搞互联）。算力的尽头不是芯片，是系统。当我们不再只讨论单一芯片的跑分，转而讨论 RDMA 丢包率、LPO 功耗和软件栈迁移成本时，国产算力才真正进入了“专业玩家”的决赛圈。

小结一下

老黄的财报其实告诉了全球玩家一个真理：在 AI 时代，连接力就是战斗力。英伟达现在的领先，本质上是“生态位”的领先——他不仅卖最好的斧头（GPU），还承包了整片森林的运输道路（IB 网络）。国产算力厂商现在瞄准这个“基础”开火，路子确实没偏。虽然这条路很难，但这是通往未来的门票，必须拿到手。

如果关注“老黄护城河被瞄准”这个国产算力逻辑，建议可以参考下面这个分层观察视角：
1. 协议层（最难啃的骨头）：寻找在 RDMA、RoCE v2 优化上有突破的企业。盛科是目前 A 股中稀缺的交换芯片标的。
2. 软件栈（兼容性命门）：海光凭借对 CUDA 极高的适配度，是目前国内最能承接“生态迁移”流量的上市公司。
3. 连接件（物理基础）：澜起科技在 CXL 和 PCIe 领域的卡位，决定了国产 GPU 能不能从“单兵”串联成“集群”。中际、新易胜则只要 AI 集群向“十万卡”演进，它们就是确定性最强的受益者。

免责声明：本文内容整理自Cyber团队内部观点，仅代表市场观察，不构成任何具体的投资建议或决策依据。市场有风险，严肃投资，审慎评估。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行