GPU芯片行业研究报告

2026-07-01 12:23

GPU芯片行业研究报告

一、GPU芯片概述与工作原理

（一）GPU的基本定义与发展历程

GPU（Graphics Processing Unit，图形处理器）的概念由英伟达于1999年首次提出。在此之前，计算机的图形渲染任务主要由CPU承担，但CPU的串行处理架构在面对大规模并行图形计算时效率极低。英伟达推出的GeForce 256被定义为第一款GPU，它将图形处理中的变换、光照、三角形设置等原本由CPU完成的工作集成到芯片内部，从而彻底释放了CPU的负担。

此后二十余年间，GPU经历了从专用图形加速器到通用并行计算平台的转型。2006年，英伟达推出CUDA（Compute Unified Device Architecture）编程模型，使得开发者能够利用GPU的并行计算能力处理非图形类的通用计算任务。这一创新打开了GPU进入科学计算、数据分析和人工智能领域的大门。2012年，AlexNet在ImageNet竞赛中凭借GPU加速的深度学习训练一举夺冠，标志着GPU正式成为AI时代的核心算力引擎。自此，GPU的角色从“游戏显卡的图形芯片”彻底跃升为“人工智能的基础设施”。

进入2025年，GPU的市场地位已发生根本性变化。根据Yole Group发布的《2025年处理器产业状况报告》，2024年GPU销售额达到1130亿美元，占各类处理器总销售额的39%，一年内实现126%的增长，首次超越CPU成为处理器市场的销售额冠军。这一增长的核心驱动力来自生成式AI模型的爆发式需求，以及英伟达在数据中心GPU领域的绝对主导地位。Yole Group预计，到2030年GPU市场规模将达到2390亿美元，是2024年的两倍以上。消费级GPU市场同样保持稳健增长，据QY Research统计，2025年全球消费级GPU市场销售额达到4623亿元人民币，预计2032年将达到7521.7亿元。

（二）GPU与CPU的架构差异

CPU（中央处理器）的设计目标是处理复杂的控制逻辑和串行任务，因此CPU芯片面积中大部分被用于控制单元（Control Unit）和缓存（Cache），真正用于计算的算术逻辑单元（ALU）占比仅为约25%。相比之下，GPU的设计目标是大规模数据并行处理，其芯片面积中约90%被用于计算单元，控制逻辑被极度精简。

CPU擅长处理分支密集、逻辑复杂的任务，每个核心可以独立执行不同的指令流，适合操作系统、数据库等场景。而GPU擅长处理数据密集、计算密集的任务，数千个计算核心同时执行相同的指令，处理不同的数据——这种模式被称为SIMT（单指令多线程）。

以一个简单的例子来说明：假设需要对100万个像素点进行颜色校正。CPU的做法是让一个核心循环处理100万次，每次处理一个像素；而GPU的做法是让1000个核心同时工作，每个核心处理1000个像素。虽然单个GPU核心的速度远慢于CPU核心，但凭借数量级的核心规模优势，GPU在并行计算任务上的总吞吐量可以超过CPU数十倍乃至上百倍。

从应用场景来看，CPU与GPU形成了明确的分工：CPU负责操作系统的运行、任务的调度分发、复杂逻辑的判断与分支处理；GPU则专注于大规模的矩阵乘法、卷积运算等计算密集型任务。在AI训练和推理中，CPU将数据预处理后交给GPU进行核心计算，GPU完成计算后将结果返回CPU进行后续处理——两者协同工作，各司其职。

（三）训练芯片与推理芯片的差异

1.本质差异

训练芯片与推理芯片在计算目标、技术特性和商业逻辑上遵循着完全不同的法则。

训练芯片承担的是建造角色。它通过海量计算与数据输入，让大模型从无到有地学习出理解世界的能力。在训练阶段，研究人员关注的是模型能否在数百万次迭代中不断优化参数、降低损失函数，至于单次迭代耗时多久、消耗多少电力，在“能否训练出好模型”这一核心目标面前都是次要问题。因此，训练芯片的设计哲学可以概括为吞吐量优先，即追求极致的计算吞吐量，以最快速度完成模型学习。也正因如此，训练过程通常部署在数据中心后端离线运行，对实时性没有要求，属于典型的“后端负载”。

推理芯片的角色则完全不同。当模型训练完成、参数固定之后，需要将其部署到实际应用场景中，面向终端用户提供智能服务——这便是推理阶段。推理芯片承担的是执行角色。在推理场景中，每一次用户请求都需要在毫秒级内获得响应，同时成千上万的用户可能并发访问，这就要求推理芯片在保证低延迟的前提下还要具备高并发处理能力。更为关键的是经济性：推理是直接面向商业场景的，每一次推理的电力成本、硬件折旧都直接影响服务商的利润率。如果说训练芯片是不计成本的战略投资，那么推理芯片就是精打细算的日常运营。因此，推理芯片的设计哲学可以概括为效率与速度优先，追求低延迟、高并发和极致的能效比，部署环境也更为多样，从云端数据中心到边缘设备、终端硬件皆有覆盖。

上述差异直接体现在核心评价指标上。衡量训练芯片性能的关键指标是峰值算力（FLOPS）、内存带宽和集群可扩展性。训练一个万亿参数的大模型，可能需要数千甚至上万张GPU协同工作数月之久，芯片的单卡算力决定了训练周期的长短，而集群的互联效率则决定了算力能否被有效利用。而衡量推理芯片性能的核心指标则是延迟（Latency，即从输入到输出的响应时间）、每秒查询数（QPS，即单位时间能处理多少请求）和能效比（Performance/Watt，即每瓦特功耗能产出多少算力）。一个低延迟、高QPS且省电的推理芯片，意味着更低的服务成本和更好的用户体验。

2.技术路线的不同

由于目标不同，训练芯片与推理芯片在技术实现上走向了完全不同的道路，这种分化体现在从计算精度、内存架构到互联方式的每一个技术层面。

2.1在计算精度方面，训练芯片必须支持高精度浮点运算。神经网络的训练过程涉及大量梯度计算与反向传播，数值精度直接决定模型能否收敛以及最终效果的好坏。如果精度过低，梯度更新中的微小误差会被累积放大，导致模型无法达到最优状态。因此，训练芯片通常需要支持FP32（单精度）、FP16（半精度）乃至BF16（Brain Floating Point）等多种高精度浮点格式。英伟达H100的Tensor Core在FP16精度下可提供近2000 TFLOPS的算力，正是为了满足大规模训练的需求。推理芯片则完全不同：模型参数已经训练完成，前向传播不再需要高精度梯度，完全可以采用更低精度的整数运算来替代浮点运算。INT8、INT4乃至INT2的低比特量化成为推理芯片的主流精度格式——虽然精度降低会带来微小的模型性能损失，但对大多数应用场景而言，这种损失可以控制在可接受范围内，而换来的却是数倍的推理速度提升和数倍的功耗降低。以英伟达A10推理卡为例，其INT8峰值算力可达到312 TOPS，远超其FP32算力，正是量化技术带来的红利。

【高精度浮点运算解释】

浮点运算是计算机表示和操作实数（即带小数点的数字）的基本方式。在人工智能领域，浮点运算的精度直接决定了模型能否被成功训练出来，也决定了训练的效率。

要理解浮点运算，首先要理解计算机是如何存储小数的。一个浮点数由三个部分组成：符号位（表示正负）、指数位（表示数量级）和尾数位（表示具体数值）。这三个部分所占的二进制位数不同，就形成了不同的精度格式。目前主流的浮点格式包括双精度FP64（64位）、单精度FP32（32位）、半精度FP16（16位）以及BF16（16位）。

FP64、FP32、FP16和BF16这些缩写中的数字，代表的就是该格式占用的二进制位数。FP64占用8个字节共64位，精度最高，但计算速度最慢、占用的存储空间也最大。FP32占用4个字节共32位，是长期以来科学计算和深度学习的标准精度。FP16和BF16都只占用2个字节共16位，存储空间只有FP32的一半。

为什么AI训练需要高精度浮点运算？问题出在神经网络训练的核心机制——反向传播上。训练一个神经网络，本质上是让模型通过不断试错来调整其内部的数亿乃至数千亿个参数。每一次试错，模型都要计算一个“梯度”——这个梯度告诉模型，每个参数应该朝哪个方向调整、调整多少。问题在于，梯度往往是非常小的数值，可能只有0.00001的量级。如果用FP16来表示这个数值，它会直接变成0——这就好比用一把最小刻度是厘米的尺子去量一根头发丝的直径，根本量不出来。梯度一旦变成0，模型就失去了调整的方向，训练也就失败了。这就是所谓的“下溢”问题。

为了兼顾计算速度和数值精度，业界发展出了“混合精度训练”技术。其核心思路是：不是让整个模型都用同一种精度，而是根据不同运算的特点灵活选择。对于那些计算密集但对精度不敏感的运算（如矩阵乘法、卷积），使用FP16或BF16来获得更快的速度和更小的内存占用；对于那些对精度敏感的运算（如对数运算、softmax），则保留FP32精度。此外，还有一种称为“损失缩放”的技术——在计算损失值时先将数值放大，更新参数时再缩小回来，从而避免小数值在低精度下被抹掉。

BF16是一种特殊的16位格式，它与FP16的关键区别在于指数位的设计。BF16保留了和FP32相同的指数位数，只是截短了尾数位。这意味着BF16的动态范围和FP32一样广——能够表示同样大和同样小的数值——只是精度稍低一些。对于大模型训练来说，BF16往往比FP16更合适，因为它不容易出现上溢或下溢的问题。

在硬件层面，不同精度下的计算速度差异巨大。以英伟达V100 GPU为例，FP16张量核心的算力可达120 TFLOPS，而FP64仅为7.5 TFLOPS、FP32为15 TFLOPS。这意味着在支持低精度加速的硬件上，使用FP16可以获得比FP64快16倍的计算速度。这种数量级的差距，正是现代AI训练能够处理万亿参数模型的关键技术基础之一。

2.2在内存与带宽方面，训练芯片面临的核心瓶颈是内存墙——计算单元的运算速度远快于数据从内存搬运的速度，如果内存带宽不足，计算单元将不得不空转等待数据。因此，训练芯片通常配备高带宽内存（HBM），通过3D堆叠技术和超宽数据总线实现每秒数太字节（TB/s）级的带宽。英伟达H100配备80GB HBM3内存，带宽超过3TB/s，确保数千个计算核心能够持续满负荷运转。然而HBM的成本极高，每GB价格远超普通内存，这使得训练芯片的物料成本居高不下。推理芯片则更倾向于采用性价比更高的GDDR6或LPDDR等内存方案，虽然带宽远低于HBM，但推理场景的计算量相对可控，对内存带宽的压力不如训练端那样极端。更重要的是，推理芯片在内存管理上进行了大量软件层面的优化——通过PagedAttention等技术实现显存的动态复用，通过KV Cache的智能调度减少重复计算，这些软件层面的创新在一定程度上弥补了硬件带宽的不足。谷歌TPU更是采用了超大容量片上SRAM（高达384MB）来承载KV Cache，以极低的访问延迟换取更高的推理吞吐。

2.3在并行与互联方面，训练芯片必须支持大规模集群扩展。训练万亿参数的大模型往往需要数千乃至上万张GPU协同工作，芯片之间的互联效率直接决定了集群的整体算力利用率。英伟达通过NVLink和InfiniBand构建了从单机八卡到万卡集群的全套互联方案，其NVLink 6.0的单链路带宽已达900GB/s。推理芯片则更关注单卡或单机的并发处理能力，通过MIG（多实例GPU）等技术将一张物理卡虚拟化为多个独立计算实例，实现资源的精细化隔离与调度。配合Triton等推理服务器的动态批处理与请求排队机制，推理芯片能够在有限的硬件资源下支撑起数千路并发请求。这种从“大规模集群扩展”到“单卡高并发优化”的技术方向转换，本质上是训练与推理在商业成本结构上的差异所驱动的：训练中心的成本核心在于如何将上万张卡高效连接起来，而推理服务的成本核心在于如何让每一张卡支撑尽可能多的用户请求。

从更宏观的技术趋势来看，训练与推理的技术路线正在从“通用”走向“专用”。早期无论是训练还是推理，都采用相同架构的GPU（如英伟达V100既可以做训练也可以做推理），只是使用时侧重不同。但随着AI工作负载的差异越来越大，专用的训练芯片和专用的推理芯片正在成为行业共识。谷歌2025年发布的TPU v8系列首次将训练优化版（v8t）和推理优化版（v8i）作为独立产品线推出，堪称这一趋势的标志性事件。训练芯片在不断堆砌算力、带宽和互联能力的同时，推理芯片则在量化精度、内存效率、能耗控制等维度持续深耕。这种分化意味着未来的AI芯片市场将不再是通用GPU一统天下，而是形成一个由训练芯片、推理芯片、边缘AI芯片、端侧AI芯片等多个专业品类构成的多元化生态，每一类芯片都将在自己的赛道上深耕细作。

二、GPU的核心架构组成

（一）计算核心：流处理器（SM）与CUDA核心

GPU最基本的计算单元是CUDA核心（在英伟达的架构中）或流处理器（在AMD的架构中）。这些核心数量庞大——英伟达H100拥有超过一万个CUDA核心——每个核心都能执行基础的浮点或整数运算。但这些核心并非独立工作。它们被组织成更大的计算单元——在英伟达的架构中称为流式多处理器（Streaming Multiprocessor，SM），在AMD的架构中称为计算单元（Compute Unit，CU）。每个SM包含数十到上百个CUDA核心，以及共享内存、寄存器文件、调度器等资源。多个SM再组合成更大的处理集群，称为GPC（图形处理集群）。以下主要介绍CUDA：

CUDA是英伟达公司在2006年推出的一项革命性技术，全称是统一计算设备架构（Compute Unified Device Architecture）。它的核心价值在于：让开发者能够利用GPU的大规模并行计算能力来处理通用计算任务，而不仅仅是图形渲染。

在CUDA出现之前，GPU虽然拥有数千个计算核心，但普通开发者几乎无法利用这些算力进行科学计算。当时的GPU只能通过图形API（如OpenGL）间接调用，编程极其复杂，且只能处理图形相关的任务。CUDA的出现彻底改变了这一局面——它提供了一套完整的编程模型和开发工具，让开发者可以用熟悉的C/C++语言编写在GPU上运行的程序。

CUDA编程模型的核心是“单指令多线程”（SIMT）的执行模式。可以这样理解：假设你需要对100万个数据点分别进行同样的运算。在CPU上，一个核心要循环处理100万次，每次处理一个数据点。而在GPU上，CUDA会启动成千上万个线程，每个线程处理一个或几个数据点，所有线程同时执行相同的指令。这种模式的关键要求是，不同线程之间不能有数据依赖——每个线程可以独立完成自己的任务，不需要等待其他线程的结果。

CUDA架构的一个精妙设计是它的可扩展性。同一个CUDA程序，可以在只有几十个核心的低端GPU上运行，也可以在拥有数千个核心的高端GPU上运行，而不需要修改代码。这种可扩展性是通过将计算任务分层组织实现的——顶层是网格（Grid），网格包含多个线程块（Block），每个线程块包含多个线程。硬件会自动将这些线程块分配到不同的流式多处理器（SM）上执行。

CUDA的真正护城河不在于硬件，而在于它所构建的软件生态。经过近二十年的发展，全球数以百万计的开发者使用CUDA编写AI程序。几乎所有主流的深度学习框架——PyTorch、TensorFlow、JAX等——都深度绑定CUDA生态。这意味着，任何试图挑战英伟达的芯片厂商，都面临一个残酷的现实：即便你的硬件性能更优，如果开发者需要重写数百万行代码来适配你的芯片，他们大概率不会这么做。这种生态锁定效应，构成了英伟达最难以被撼动的竞争壁垒。

（二）张量核心（Tensor Core）：AI计算的硬件加速器

张量核心（Tensor Core）是英伟达从2017年的Volta架构开始引入的一种专用计算单元，专门用于加速矩阵乘法和累加运算。

要理解张量核心的价值，首先要理解深度学习计算的核心是什么。神经网络的本质就是大量的矩阵乘法——把输入数据（一个矩阵）乘以权重矩阵，再加上偏置，然后通过激活函数。一个千亿参数的大模型，其训练过程中95%以上的计算量都是矩阵乘法。如果用通用的CUDA核心来做这些矩阵乘法，每个核心一次只能处理一个乘加操作。而张量核心在一个时钟周期内可以完成一个4x4矩阵的乘加运算，相当于同时进行了64次浮点乘加运算。

具体来说，张量核心的工作原理是：它接收两个4x4的FP16精度矩阵作为输入，将它们相乘，再加上一个FP32精度的累加矩阵，最终输出一个FP32精度的结果矩阵。这种“输入用低精度、累加用高精度”的混合精度设计，既保证了计算速度，又避免了精度损失。在硬件层面，张量核心的实现依赖一个精密的流水线电路——输入数据先进入16位寄存器，经过乘法器计算后，结果存入32位寄存器进行累加。

张量核心带来的性能提升是革命性的。以Volta V100与上一代Pascal P100的对比为例：每个流式多处理器（SM）的AI吞吐量提升了8倍，加上SM数量和核心设计的整体优化，总体性能提升了12倍。此后的每一代架构——从Volta到Turing到Ampere到Hopper到Blackwell——张量核心都在持续进化：支持的数据精度越来越丰富（从FP16扩展到INT8、INT4、FP8等），单次运算的矩阵规模也越来越大。

张量核心的编程抽象也在不断演进。2025年，英伟达发布了CUDA Tile技术，这是自CUDA平台2006年问世以来最大的一次技术进步。CUDA Tile引入了一套面向分块（Tile-based）并行编程的虚拟指令集，开发者只需指定数据块和要执行的操作，编译器和运行时自动处理将其映射到张量核心等硬件资源的细节。这意味着开发者不再需要深入了解张量核心的硬件细节就能充分利用其算力。

（三）存储体系：从寄存器到HBM的层次化设计

GPU的存储体系是一个从快到慢、从近到远的金字塔结构：寄存器（最快，容量最小）→ L0/L1/L2缓存 → 高带宽显存（HBM，速度较慢但容量大）。这种层次化设计的目标是在速度、容量和成本之间取得最优平衡。

HBM（高带宽存储器，High Bandwidth Memory）是专为高性能计算和AI工作负载设计的一种存储器技术。如果说GPU是AI的“大脑”，那么HBM就是连接大脑与“食材仓库”的“高速公路”——数据送得快不快，直接决定了大脑能算多快。

要理解HBM为什么重要，需要先理解传统内存的局限。传统内存（如电脑里的DDR5）采用“平面布局”——芯片平铺在电路板上，数据要沿着金属导线“走平路”传输。这种方式的带宽有限（DDR5最高约50GB/s），延迟较高（100纳秒以上）。而现代GPU的计算速度早已突破每秒千万亿次，数据供应根本跟不上计算速度——这就是所谓的“内存墙”瓶颈。

HBM彻底改变了这种局面。它的核心设计是“3D堆叠”——把多个DRAM芯片垂直堆叠在一起，就像叠多层蛋糕一样。每一层之间用“硅通孔”（TSV）技术连接——这些微小的垂直通道让数据可以直接在层间穿梭，不需要绕路。这种垂直结构极大地缩短了数据传播的物理距离，从而实现了极高的带宽。

HBM自2014年问世以来已经历了多代演进。HBM1采用第一代TSV技术，深宽比仅1:10，单堆栈最多堆叠4层DRAM芯片，带宽仅128GB/s。到HBM2时代，TSV深宽比提升至1:15，8层堆叠实现256GB/s带宽。HBM3e的第三代TSV技术将深宽比拓展至1:20，配合12层堆叠设计，带宽跃升至2.8TB/s。而HBM4更是将I/O数量提升至2048，数据速率提升至8Gbps，总带宽突破2TB/s。KAIST发布的HBM路线图预测，HBM8的带宽将飙升至64TB/s——相当于每秒能传输16万部高清电影。

HBM与GPU的集成方式也经历了演变。最早的HBM通过硅中介层（Silicon Interposer）与GPU芯片并排放在同一封装内，通过微凸块和TSV技术连接。这种2.5D封装方案至今仍是主流——台积电的CoWoS封装技术正是基于这一原理。到了HBM4时代，HBM开始走向“定制化”——通过“定制基底芯片”（Custom Base Die）与GPU实现更紧密的集成。未来，HBM甚至可能直接与GPU核心堆叠在一起，形成真正的3D集成，进一步缩短数据传输距离。

当前HBM市场由SK海力士、三星、美光三家垄断，英伟达GPU消耗了全球超过五成的HBM产能。HBM的良率约50%至60%，生产周期长达两个季度，扩产周期长达12至18个月，这使得高端HBM在可预见的未来将持续处于供不应求的状态。

三、GPU的分类

按应用场景划分，GPU主要分为以下几类：

图形渲染GPU：面向游戏、设计、影视等场景，需要完整的图形管线支持，包括纹理映射、光栅化、光线追踪等功能。典型产品如英伟达GeForce系列、AMD Radeon系列。

通用计算GPU（GPGPU）：面向科学计算、AI训练与推理等场景，强调浮点运算能力和编程灵活性，图形功能被弱化或移除。典型产品如英伟达数据中心GPU（H100、B200）、AMD Instinct系列。

训练芯片与推理芯片：训练芯片需要高精度（FP16、BF16）和高吞吐量，芯片设计上强调计算密度和互联带宽；推理芯片则更注重低精度（INT8、FP4）计算效率和低延迟，对功耗和成本更为敏感。

四、GPU芯片的关键壁垒

GPU行业之所以形成高度集中的竞争格局，根本原因在于其技术壁垒之复杂、之深厚。一款有市场竞争力的GPU，其设计难度远超普通芯片，涉及架构设计、先进制程、先进封装、高带宽存储和软件生态等多个维度的极限挑战。以下逐一剖析这些壁垒。

（一）设计壁垒

1.芯片架构设计

GPU的架构设计是整个芯片设计的灵魂。架构师需要在功耗、面积、性能、灵活性之间做出精妙的权衡——增加计算核心会提升性能但推高功耗和芯片面积，增加缓存会减少内存访问延迟但占用宝贵的芯片面积。这种权衡没有标准答案，而是取决于目标应用场景。

以英伟达为例，其GPU架构每两年左右进行一次重大迭代：从Volta（2017）到Turing（2018）到Ampere（2020）到Hopper（2022）到Blackwell（2024）再到Rubin（2026）。每一次架构升级都涉及计算单元的重新组织、存储层次的重构、互联拓扑的优化。国产GPU与国际先进水平仍存在二至三代的架构差距，这种差距不是简单的“堆核心”可以弥补的。

更重要的是，架构设计必须与软件生态深度协同。一个新的硬件特性（如Tensor Core）如果没有软件栈的支持就无法被开发者使用；而软件栈的优化又需要理解硬件的微架构细节。这种软硬协同设计的复杂性，构成了新进入者难以逾越的壁垒。

2.核心IP的自主化

IP核（Intellectual Property Core，知识产权核）是芯片设计领域的一个重要概念。简单来说，IP核就是预先设计好、经过验证、可以重复使用的功能模块——相当于芯片设计中的“乐高积木”。GPU的核心IP（知识产权）包括计算核心的设计、缓存一致性协议、互联总线等。全栈自研意味着从零开始设计这些IP，而非授权使用第三方的成熟方案。这需要极其深厚的技术积累和漫长的试错周期。

芯片设计的复杂度已经达到了单个公司难以从零开始完成所有工作的程度。一颗现代GPU包含数百亿个晶体管，涉及计算单元、缓存、内存控制器、互联总线、视频编解码器等数十种功能模块。如果每个模块都要从头设计，开发周期将长达数年、投入将高达数十亿美元。IP核的出现解决了这个问题——设计公司可以直接购买或授权使用已经验证好的IP核，将其集成到自己的芯片中，从而大幅缩短开发周期、降低研发风险。

GPU的IP核涵盖了芯片的各个层面。最底层的是指令集架构（ISA）——它定义了芯片能识别和执行哪些指令。例如，Oxmiq公司推出的GPU IP核基于RISC-V指令集架构，将标量、矢量和张量计算引擎集成在一个模块化架构中。往上一层是具体的功能模块IP——比如图形渲染管线、视频编解码器、显示控制器等。芯原微电子提供的Vivante GPU IP系列就是这类IP的代表，可以应用于从低功耗物联网MCU到高性能汽车芯片的各种场景。再往上是接口IP——比如PCIe控制器、内存控制器等，负责芯片与外部世界的通信。

IP核的授权模式通常分为两种。一种是“硬核”（Hard IP）——已经完成了物理设计，以GDSII版图的形式交付，可以直接用于流片，但灵活性较低。另一种是“软核”（Soft IP）——以RTL代码的形式交付，客户可以根据自己的需求进行修改和优化，灵活性高但需要客户具备相应的设计能力。大多数GPU IP核以软核形式授权，让客户能够根据具体应用场景进行定制。

IP核的复用对芯片产业的影响是深远的。它使得初创公司也能在较短时间内推出复杂的芯片产品——只要能够集成足够多的高质量IP核。但IP核的复用也带来了一些问题：如果多个芯片使用相同的IP核，产品差异化就会变小；而且IP核的质量直接影响最终芯片的质量，一旦IP核存在缺陷，所有使用它的芯片都会出现问题。

在中国GPU产业的发展中，IP核的自主化是一个关键议题。是否拥有自主可控的核心IP，直接决定了芯片设计公司是否能在极端情况下维持产品迭代能力。国内GPU企业在这条路上选择了不同的策略：有的采用“兼容CUDA”的路线，通过在编译层将CUDA代码转换为自家芯片可执行的指令来实现生态兼容；有的则坚持全栈自研，从指令集到微架构到软件栈全部自主开发。前者可以更快地进入市场，但面临性能损耗和知识产权风险；后者周期更长、投入更大，但长期来看更可持续。

3.EDA工具

EDA（电子设计自动化）工具是芯片设计不可或缺的软件工具链，涵盖从逻辑综合、布局布线、时序分析到物理验证的全流程。全球EDA市场由Synopsys、Cadence和西门子三大国际巨头垄断，国产EDA工具在高端数字芯片设计领域仍缺乏端到端的能力。

对于GPU这样的超大规模芯片（晶体管数量动辄数百亿乃至上千亿），EDA工具的缺失或不足意味着设计效率的显著下降和流片风险的急剧上升。国产GPU企业普遍面临“用国外的EDA工具设计国产芯片”的尴尬处境，虽然这并不违法，但在供应链安全层面构成了潜在风险。

（二）工艺与制造壁垒

1.先进制程

现代GPU普遍采用全球最先进的半导体制造工艺。英伟达H100采用台积电4nm制程，Blackwell采用4NP定制工艺。更先进的制程意味着更高的晶体管密度、更低的功耗和更高的频率，但也意味着更高的流片成本和更低的良率。

然而，摩尔定律正在逼近物理极限。芯片制程从7nm向5nm、3nm乃至2nm演进的过程中，每前进一步所需的研发投入呈指数级上升，而性能提升的幅度却在递减。这意味着单纯依赖制程进步来提升GPU性能的时代正在过去，架构创新和系统级优化变得越来越重要。

2.先进封装：CoWoS与Chiplet

当单芯片的面积接近光罩极限时，先进封装技术成为了延续“摩尔定律”的新载体。台积电的CoWoS（Chip on Wafer on Substrate）封装技术是目前高性能GPU的标准方案。

CoWoS是一种2.5D先进封装技术，其工艺流程是：先将芯片通过CoW工艺集成至硅中介层（Silicon Interposer），再与封装基板连接，从而实现GPU、HBM等多芯片之间的高带宽互联。自台积电2011年推出CoWoS以来，技术历经多轮迭代，目前主要分为CoWoSS（整片硅中介层）、CoWoSR（有机中介层）和CoWoSL（局部硅桥+有机基板）三类方案。

为什么从CoWoSS升级到CoWoSL具有必然性？核心原因在于AI GPU正持续向双Die、多HBM方向演进，硅中介层面积快速逼近甚至超过光罩极限。以英伟达B200为例，其封装面积已达到单片硅中介层可承载极限的3至4倍，超大尺寸硅中介层易翘曲，导致良率下降与成本上升。CoWoSL以“局部硅桥+有机基板”替代超大单片硅中介层，仅在需要高带宽的区域保留硅互连，在降低翘曲与成本的同时，为后续更多HBM与更大Chiplet集成提供了空间。

从成本角度看，先进封装的价值量正在显著提升。根据SemiAnalysis的数据，H100的CoWoSS封装成本约750美元，而B200的CoWoSL封装成本已提升至约1000至1100美元。台积电CoWoS总产能预计2025年底达到每月7至8万片，2026年底有望提升至11.5至14万片，2027年有望达到17万片。随着Blackwell、Rubin等平台转向CoWoSL，预计2026年CoWoSL产能占比将提升至40%至45%。

国内先进封装仍以CoWoSS为主，预计2026年国内类CoWoS总产能约1.5至2万片/月，其中CoWoSS占比仍超过95%，CoWoSL量产仍处于早期阶段。这一差距意味着国产GPU在先进封装环节仍高度依赖台积电等海外代工厂。

Chiplet（芯粒）技术是另一条重要路径。通过将一颗大芯片拆分为多颗小芯片（芯粒），分别制造后再通过先进封装集成在一起，可以在一定程度上绕过单芯片面积和良率的限制。华为昇腾910C即采用Chiplet双芯封装方案。

（三）材料壁垒

1.高带宽存储器（HBM）

HBM是当前GPU行业最关键的组件之一，其重要性不亚于GPU核心本身。没有足够的HBM带宽，再强大的计算核心也无法发挥性能——这就是所谓的“内存墙”瓶颈。

HBM的市场格局高度集中。SK海力士、三星、美光三家垄断全球HBM供应，2025年三家的市占率比例预计为5:2:3。2025年，英伟达GPU消耗了全球超过五成的HBM产能。当前HBM良率约50%至60%，生产周期长达两个季度，在代际升级与供给约束的双重作用下，2025至2026年高端HBM产能持续处于紧平衡状态。

HBM产业链本身也是一条复杂的供应链：上游包括高纯度硅片、光刻胶、特种气体等材料，中游涉及TSV（硅通孔）、Microbumping、堆叠键合等关键工艺。HBM的产能扩张受制于这些材料和工艺环节的瓶颈，扩产周期长达12至18个月。

2.芯片制造材料的国产化进程

GPU制造所需的关键材料还包括光刻胶、靶材、载板等。这些材料的国产化程度参差不齐：部分领域（如靶材）已有突破，但高端光刻胶仍高度依赖进口。材料供应链的自主可控程度，直接影响着国产GPU在极端情况下的生存能力。

（四）生态壁垒

1.CUDA生态的垄断地位

CUDA（Compute Unified Device Architecture）是英伟达于2006年推出的并行计算平台和编程模型。经过近二十年的发展，CUDA已经成为了AI和高性能计算领域事实上的“编程语言标准”——全球数以百万计的开发者使用CUDA编写AI程序，几乎所有主流的深度学习框架（PyTorch、TensorFlow、JAX等）都深度绑定CUDA生态。

CUDA生态的价值在于其网络效应：开发者越多，基于CUDA的库和工具就越多；库和工具越多，新开发者就越倾向于选择CUDA。这种正向循环使得后来者几乎不可能通过“更好的硬件”来颠覆英伟达的地位——因为即便硬件性能更优，缺乏软件生态支持也会导致开发者流失。

2.生态不兼容的代价

国产GPU企业面临的核心困境在于：如果选择兼容CUDA（通过在编译层将CUDA代码转换为自家芯片可执行的指令），必然面临20%甚至更多的性能损耗；如果选择不兼容CUDA、自建生态，则需要从零开始吸引开发者，这在短期内几乎不可能实现。

华为选择了第三条路：将自研的CANN（Compute Architecture for Neural Networks）软件栈全面开源，试图构建一个独立的AI计算生态。但CANN要追上已有近二十年历史、并持续更新至今的CUDA，仍需很长的时间。中科曙光则采取了“DeepAI深算智能引擎”的开源策略，旨在整合国产GPGPU厂商资源，共同打造中国“类CUDA”生态。这些探索虽然方向正确，但生态建设是一个漫长的过程，无法一蹴而就。

五、GPU芯片的行业难点

（一）技术难点

1.架构设计

GPU架构设计面临功耗、性能、面积三者之间的根本性矛盾——提升性能往往意味着增加功耗或芯片面积，降低功耗则可能牺牲性能。在AI模型参数每18个月增长10倍的背景下，如何在不显著增加功耗的前提下持续提升算力，已成为整个行业面临的核心挑战。

2.摩尔定律逼近物理极限

芯片制程的微缩正在接近物理极限。晶体管已经小到量子效应开始显著影响其开关特性的程度，继续缩小尺寸的成本急剧上升而收益递减。这意味着单纯依靠制程进步来提升GPU性能的时代正在走向终结，行业需要寻找新的性能增长路径——从架构创新到先进封装，从系统级优化到算法硬件协同设计。

3.散热与供电的物理瓶颈

随着GPU功耗的持续攀升（英伟达B200功耗已超过1000W），散热和供电成为越来越严峻的工程挑战。风冷已经难以满足超大规模GPU集群的散热需求，液冷正在成为标配——液冷方案的PUE（电源使用效率）可低至1.1，而风冷通常在1.5以上。这不仅仅是芯片设计的问题，而是从芯片封装到服务器机架再到数据中心基础设施的全链条挑战。

（二）资金难点

GPU行业是典型的技术密集型和资金密集型行业。一款先进制程GPU从设计到流片再到量产，投入通常在数亿美元级别。流片失败可能意味着数千万美元的损失和一年以上的时间成本。

以国内企业为例，沐曦2025年研发投入达10.27亿元，占营收的62.49%；燧原科技2022至2024年及2025年前9个月累计亏损超过40亿元；摩尔线程三年累计亏损超49亿元。这些数字反映了国产GPU企业面临的巨大资金压力——在实现规模化盈利之前，需要持续承受高额的研发投入和运营亏损。

（三）人才难点

GPU设计需要跨领域的复合型人才，涵盖架构设计、逻辑设计、物理设计、验证、软件栈开发等多个方向。一款产品从设计到量产往往需要2至3年，对团队的经验和稳定性要求极高。

然而，国内集成电路产业正面临严重的人才短缺。GPU架构师、资深验证工程师等核心岗位尤其稀缺，培养一名合格的GPU设计工程师通常需要5至10年的实战积累。国际巨头如英伟达、AMD通过多年的积累形成了庞大的人才梯队，而国内企业往往需要在极短的时间内组建完整的研发团队，难度极大。

（四）商业化难点

从“芯片流片成功”到“大规模商业化落地”之间，还隔着巨大的鸿沟。国产GPU面临的不仅是“能不能做出来”的问题，更是“有没有人用”的问题。

客户从英伟达迁移到国产GPU需要付出显著的迁移成本——包括代码重写、性能调优、稳定性验证等。除非国产GPU在性能、价格或供应链安全方面提供足够显著的差异化价值，否则客户缺乏主动迁移的动力。虽然国产芯片在政务、金融等政策驱动领域的渗透率正在提升，但在商业市场的整体渗透率仍处于早期阶段。

六、国内外主要GPU企业

（一）英伟达（NVIDIA）

英伟达在全球GPU市场处于绝对的统治地位。据Jon Peddie Research 2025年第二季度报告，英伟达在台式机显卡市场的份额高达94%，AMD降至仅6%，英特尔则低于1%。在数据中心AI芯片市场，TrendForce估计2025年英伟达仍占据约70%的市场份额。摩根士丹利在2025年与英伟达管理层会谈后，维持“增持”评级，目标价设定为210美元，对应总市值约5.1万亿美元。

1.核心技术

英伟达的核心技术护城河在于其“硬件+软件”的闭环体系。硬件层面，英伟达保持着每两年左右一代架构的迭代节奏——从Hopper到Blackwell到Rubin，每一代都在算力、带宽和能效上实现数量级的跃升。软件层面，CUDA生态经过近二十年的积累，已经形成了全球AI开发者几乎无法绕开的基础设施。

2.产品路线图

Blackwell架构（2024-2025年）：B100、B200等产品，采用CoWoSL封装，是当前数据中心GPU的主力。

Blackwell Ultra（2025年）：增强版产品，配备8S HBM3e 12H。

Rubin架构（2026年下半年）：这是英伟达的下一代旗舰平台。Rubin GPU搭载第三代Transformer引擎，NVFP4推理算力达到50 PFLOPS；训练性能达到前代Blackwell的3.5倍；HBM4带宽22TB/s，为Blackwell的2.8倍；晶体管数量3360亿个，为Blackwell的1.6倍。Rubin平台采用六芯片协同设计，集成了Rubin GPU、Vera CPU、NVLink 6交换机、ConnectX9 SuperNIC、BlueField4 DPU以及Spectrum6以太网交换机。黄仁勋在2026年1月的CES展会上宣布，Rubin架构已提前全面投产，全部六款Rubin芯片已完成制造和关键测试。截至发布会当日，Rubin相关订单已达3000亿美元。

后续架构：英伟达已公布2026至2028年的两大GPU架构路线图，预计将搭配1TB HBM4e内存。

3.竞争态势

尽管英伟达的优势极为显著，但挑战正在浮现。TrendForce预测，2026年因北美CSP（云服务提供商）和中国AI自研芯片的力道更加强劲，ASIC的拉货成长幅度将高于GPU，进而导致英伟达市占率下滑。谷歌、亚马逊、微软等超大规模云服务商正在大量投资自研AI芯片（TPU、Trainium等），以减少对英伟达的依赖。不过，短期内英伟达的主导地位仍难以撼动。

（二）AMD

AMD在全球GPU市场长期处于“千年老二”的位置。2025年第二季度，其台式机显卡市场份额降至仅6%。但在数据中心AI加速器市场，AMD正在通过Instinct系列产品积极追赶。

1.核心技术

AMD的GPU技术路线与英伟达有所不同。其CDNA架构专门针对AI和高性能计算优化，ROCm开源软件栈是其对抗CUDA生态的核心武器。ROCm 7在性能上相比ROCm 6版本，推理能力提高了3.5倍以上，训练能力提高了3倍以上。

2.产品路线图

AMD的Instinct产品线按代际推进：

MI300系列（2023年）：奠定基础的AI加速器产品。

MI325X（2024年）：中间代升级。

MI350系列（2025年）：这是AMD的重要产品。其中MI355X加速卡的FP6（稀疏）和FP4（稀疏）算力均达到20.1 PFLOPS，对比上一代产品实现了4倍的AI计算能力提升和35倍的AI推理性能提升，配备288GB HBM3E内存和高达8TB/s的内存带宽。AMD还推出了具有高达128个GPU的开放式机架级AI基础设施，与英伟达GB200 NVL72机架相比，FP6性能高出3.58倍。甲骨文（Oracle）成为首批采用MI355X驱动解决方案的行业领军企业之一。

MI400系列（2026年）：由AMD与OpenAI联合研发，OpenAI为其训练和推理需求提供关键反馈。MI400系列将采用台积电2nm制程，集成432GB HBM4内存，带宽达19.6TB/s，AI算力性能相比MI350系列大幅提升2倍以上，FP4精度下峰值算力达到40 PFLOPS。MI400将采用下一代CDNA架构，预计速度较MI300系列快10倍。

MI500系列（2027年）：AMD的下一步重大升级。

3.竞争态势

AMD与英伟达的差距仍然显著，但其产品正在逐步获得市场认可。AMD通过开放标准（如OCP、超级以太网联盟）和开源软件（ROCm）来构建差异化竞争力。与OpenAI的联合研发也为其提供了重要的客户反馈和生态系统支持。不过，AMD在软件生态（ROCm vs CUDA）和市场份额上与英伟达的差距短期内难以弥合。

（三）英特尔（Intel）

英特尔在独立GPU市场的存在感相对薄弱，2025年第二季度市场份额低于1%。但英特尔在集成GPU（核显）市场和边缘计算领域仍有一定影响力。

1.产品与策略

英特尔将GPU战略聚焦于端到端AI解决方案——从AI PC到工业边缘计算到数据中心机架，解决方案均基于至强6 CPU、Gaudi 3加速器和英特尔GPU。

Gaudi系列是英特尔面向AI训练的加速器产品。Gaudi 3的计算能力达到1.8 PFLOPS（FP8和BF16），与Gaudi 2相比，MME（矩阵乘法引擎）数量翻倍、内存带宽提升1.5倍、能效提升40%。在2025年OCP全球峰会上，英特尔发布了名为“Crescent Island”的新款数据中心GPU和Gaudi 3的机架级参考设计，强调AI推理能力。

在互联技术方面，英特尔推出了Switchless Scale Up GPU超节点互联系统创新架构，旨在为大规模生成式AI及高性能计算场景提供更强大的并行处理与实时数据交换能力。

3.竞争态势

英特尔在独立GPU市场的地位依然薄弱，短期内难以对英伟达和AMD构成实质性威胁。其优势在于CPU业务的庞大装机量和端到端解决方案的整合能力，但要在独立GPU领域实现突破，还需要在产品性能和软件生态上做出更大努力。

（四）国内主要企业

2025年，国产AI加速卡出货约165万张，市场份额首次突破40%。国产GPU企业大致可分为三个梯队：第一梯队是以华为昇腾为代表的头部阵营；第二梯队是已上市或正推进上市的GPU企业（寒武纪、海光信息、沐曦、摩尔线程、天数智芯、壁仞科技等）；第三梯队是尚处于创业阶段的GPU公司（燧原科技、昆仑芯、瀚博半导体等）。

1.头部阵营：华为昇腾

华为昇腾是目前国内AI芯片领域最具实力的代表。昇腾AI处理器采用自研达芬奇架构，以昇腾910为例，其FP16算力达256 TFLOPS，INT8算力达512 TOPS。昇腾910C采用Chiplet双芯封装，1024芯片集群的FP16算力达819.2 PFLOPS，总带宽达3.2768 PB/s，可支撑千亿参数模型的训练。其推理性能可达英伟达H100的60%左右。华为还在推进昇腾910D，目标是与英伟达Blackwell B200竞争，理论峰值算力达1.2 PFLOP/s。

在软件生态方面，华为已将CANN（Compute Architecture for Neural Networks）全面开源，试图构建独立的AI计算生态。昇腾已承建超过20个国家级智算中心，是国内智算中心建设的核心算力提供商。

2.上市及准上市企业

（1）寒武纪（688256.SH）

寒武纪成立于2016年，是国内AI芯片领域的先行者，构建了“云边端”全场景产品矩阵。其旗舰产品思元590的INT8算力达512 TOPS，通过MLUv03指令集优化，在稀疏激活场景下表现突出。思元590在视觉处理、语言大模型等场景中，性能可达英伟达A100的80%左右。截至2025年第一季度，寒武纪GPU芯片累计销量已超过25000片。2026年初，思元590实现全场景规模出货，新一代旗舰思元690也已量产。

（2）海光信息

海光信息的深算系列DCU（深度计算处理器）是国内GPGPU领域的重要产品。深算二号实现了在大数据处理、人工智能、商业计算等领域的商业化应用，性能相对于深算一号提升100%以上。深算二号在FP16、FP32、FP64精度下的算力分别达到49 TFLOPS、23 TFLOPS、10.2 TFLOPS。深算三号BW1000在算力密度、并行处理能力与能效比上实现全面突破，覆盖FP64、FP32、FP16、TF32、BF16和INT8等多算力精度。

（3）沐曦股份

沐曦成立于2020年，凭借全栈研发能力成为国产GPU领域的独角兽企业，其科创板IPO申请已获受理。沐曦采用通用化底层架构，致力于打造开放生态，拥有兼容主流GPU生态的完整软件栈（MXMACA）。其核心团队拥有平均近20年深耕高性能GPU领域的经验。

沐曦的曦云C600系列通过先进封装实现性能升级，使用最新一代HBM3e，增加了对FP8数据格式的支持。曦云C700研发项目于2025年4月立项，核心设计、功能验证已大部分完成。沐曦与中国科学院合作的国产千卡集群已完成多个大模型全参数训练，证实国产算力已具备大模型预训练能力。

（4）摩尔线程

摩尔线程成立于2020年，是国内少数敢于与英伟达正面竞争的GPU厂商。其核心竞争力源于自主研发的MUSA架构——实现了单芯片同时支持AI计算加速、图形渲染、物理仿真、科学计算及超高清视频编解码。

2025年，摩尔线程营收达15亿元，同比增长超过240%。旗舰产品MTT S5000基于第四代MUSA架构“平湖”，单卡AI稠密算力最高可达1000 TFLOPS，配备80GB显存，显存带宽1.6TB/s，完整支持从FP8到FP64的全精度计算。2025年12月，摩尔线程发布了新一代全功能GPU架构“花港”。2026年将量产第五代花港，算力密度提升50%，能效提升10倍，可支持十万卡以上规模智算集群。在推理性能方面，摩尔线程实现了每秒1024 token的解码速度和超过4000 token的峰值吞吐。

（5）天数智芯（09903.HK）

天数智芯于2026年在港股上市，是国内首家实现推理和训练通用GPU量产的公司。2025年，公司通用GPU产品收入达9.23亿元，同比增长149.6%，占总收入的89.3%。推理系列产品收入同比增长达238.2%。

在产品线上，天数智芯的“天垓”系列面向训练端，天垓Gen2（天垓150）贡献主要收入，性能对标英伟达A100；天垓Gen3（天垓300）已发布；“智铠”系列定位推理，“彤央”系列定位边端场景。在软件层面，天数智芯在大模型推理PD分离技术领域成效突出——通过解耦推理的Prefill与Decoding阶段计算任务，大幅提升资源利用率。公司研发开支为9.742亿元。

（6）壁仞科技

壁仞科技于2025年完成了旗舰通用GPU产品BR106及BR166的全形态量产与规模交付。其中BR166系列于2025年8月开始量产，在不到半年的销售时间内快速落地。2025年公司收入同比大增207.2%。壁仞科技还发布了国内首个光互连光交换GPU超节点——光跃LightSphere X。其产品壁砺166L荣获2025年“中国芯”优秀技术创新产品奖。

壁仞科技正在推进GPU核心架构演进、先进封装、多芯粒互连等技术，并深化超节点、光互连等系统级创新。

3.创业公司

（1）燧原科技

燧原科技成立于2018年，聚焦DSA（领域专用架构）架构，全栈自研软件生态。其主要产品包括邃思系列芯片及基于此的智能加速卡、大模型一体机、智算集群等。2024年下半年量产的“燧原S60”已出货及订单超过10万片。2025年发布的“燧原L600”训推一体产品支持FP8低精度计算。燧原科技2025年以6.6万张AI加速卡销量、近84%的营收复合增速走到IPO节点。不过，公司仍处于亏损状态，2022至2024年及2025年前9个月累计亏损超过40亿元。

（2）昆仑芯（百度）

昆仑芯是百度旗下的AI芯片公司。在2025年11月的百度世界大会上，百度发布了新一代昆仑芯产品路线图。昆仑芯M100针对大规模推理场景优化设计，预计2026年上市；昆仑芯M300面向超大规模多模态模型的训练和推理需求，预计2027年上市。百度还同步发布了天池256超节点与天池512超节点。百度宣布未来五年昆仑芯将保持每年一代的持续迭代节奏。

（3）瀚博半导体

瀚博半导体成立于2018年，专注于高性能全功能GPU芯片的自主研发。公司拥有自主研发的核心IP以及两代GPU芯片，提供图形渲染GPU、数据中心GPU和边缘GPU三大产品线。瀚博两代芯片现已量产并商业化落地，助力大模型、智算数据中心、智慧工业、机器人与具身智能等应用落地。公司已完成PreIPO轮融资。

4.部分企业AI芯片

主要芯片企业技术路线情况：

企业	训练芯片代表产品	推理芯片代表产品	策略分析
英伟达	H100、B200、Rubin	T4、A10、L4	通过统一的CUDA生态，提供从训练到推理的全系列产品，占据市场主导。
AMD	Instinct MI300X、MI350X	(通常使用同一架构，但优化方向不同)	以ROCm开源生态对抗CUDA，在训练市场奋力追赶英伟达。
谷歌	TPU v8t(训练优化)	TPU v8i(推理优化)	风向标事件：首次将训练与推理任务拆分至独立芯片，标志着专用化架构成为行业共识。
华为	昇腾910系列	昇腾910系列(训推一体)	通过CANN生态构建全栈能力，其产品定位为“训推一体”。
寒武纪	思元系列(云端训练)	思元系列(云端推理)	作为专业芯片厂商，推理芯片是其重要增长点，2025年出货量同比增速超350%。
亚马逊	Trainium(训练芯片)	Inferentia(推理芯片)	云厂商自研芯片的代表，旨在降低自身云服务的算力成本。

七、GPU芯片行业发展趋势

1.从单芯片性能竞争走向系统级解决方案竞争

GPU行业的竞争焦点正在从“单芯片的算力有多高”转向“系统级的算力集群有多强”。单一的GPU芯片再强大，如果无法高效地互联成集群、无法被开发者方便地调用，其价值也将大打折扣。

英伟达的Vera Rubin平台正是这一趋势的典型代表——它不是一个单一的GPU芯片，而是一个集成了GPU、CPU、交换机、DPU、网卡等六颗芯片的完整计算平台。这种系统级的整合能力，使得英伟达能够为客户提供“开箱即用”的超大规模AI算力解决方案。

2.ScaleUp超节点成为算力扩展的核心方向

在AI模型参数持续膨胀的背景下，如何高效地扩展算力成为行业的核心命题。“先ScaleUp（纵向扩展）再ScaleOut（横向扩展）”正在成为AI时代算力扩展的核心趋势。ScaleUp通过在单个节点内高速互联多颗GPU，形成“超级GPU”，显著降低跨节点通信的延迟和开销。

当GPU互联跨越单柜甚至多柜时，电互连逐步逼近其物理极限，光互连将成为实现高效连接的必然方案。壁仞科技发布的国内首个光互连光交换GPU超节点——光跃LightSphere X，正是这一趋势的印证。曦智科技与燧原科技合作推出了国内首款xPUCPO光电共封装原型系统，实现了GPU算力端的光电共封装。

3.Chiplet与先进封装成为性能突破的关键路径

当单芯片的面积和良率逼近极限时，Chiplet（芯粒）技术成为突破“摩尔定律”瓶颈的关键路径。通过将一颗大芯片拆分为多颗小芯粒分别制造、再通过先进封装集成在一起，可以在绕过单芯片面积限制的同时提升整体良率。

2025年，2.5D中介层和桥接封装占据了Chipletbased GPU市场47.48%的份额，而3D堆叠和混合键合封装预计在2031年前将以33.19%的年复合增长率增长。台积电的CoWoSL封装正在成为新一代GPU的主流方案。

4.HBM持续迭代，存算一体成为长期方向

HBM正在从HBM3E向HBM4演进。英伟达Rubin将配备HBM4，AMD MI400将集成432GB HBM4。HBM4 16Hi或于2026年落地。

更长远来看，“存算一体”正在成为突破“内存墙”瓶颈的前沿方向。英伟达正携手Meta、三星等探索将GPU核心植入HBM的新技术，通过将运算单元与存储单元的物理距离缩至最短，显著减少数据传输延迟和功耗。后摩智能等创业公司也在推进存算一体技术路径，以10W功耗提供100至160 TOPS算力。

5.AI推理需求增速将超过训练需求

随着大模型从“训练阶段”走向“应用阶段”，推理算力的需求增速正在超过训练算力。模型蒸馏、小模型爆发等趋势使得企业不再只追求最大模型，而是把模型缩小、变快、变便宜，部署在更多场景中。

这一趋势对GPU芯片的设计提出了新的要求：推理芯片需要更关注低精度计算效率、低延迟和低成本，而非单纯追求峰值算力。国产GPU企业在推理芯片领域的布局（如寒武纪思元590、天数智芯智铠系列等）正是瞄准了这一市场机遇。

6.国产替代持续深化，但生态建设任重道远

2025年国产AI加速卡市场份额首次突破40%。政策驱动（如政务、金融领域国产化要求）和供应链安全需求将持续推动国产GPU的渗透率提升。

然而，国产GPU面临的真正挑战不在于硬件性能的追赶，而在于软件生态的构建。CUDA经过近二十年的积累形成的生态壁垒，绝非短期内可以突破。国产GPU企业需要在“兼容CUDA”和“自建生态”之间找到合适的平衡点。华为CANN的开源、中科曙光DeepAI的开放、摩尔线程MUSA生态的建设，都是有益的探索，但这条路注定漫长而艰难。

打赏