

前言
当前,全球正处于人工智能技术驱动的第四次工业革命关键阶段,算力作为数字经济的核心生产力,已成为衡量国家科技竞争力的重要指标。AI 算力芯片作为专门为人工智能应用设计的硬件加速器,其性能与能效直接决定了大模型训练、实时推理等核心任务的效率,是推动 AI 技术从实验室走向规模化产业应用的基石。
生成式 AI 的爆发式增长彻底改变了算力需求格局,从千亿参数到万亿参数大模型的迭代,从文本生成到多模态交互的升级,对算力的需求呈现指数级增长。与此同时,全球供应链重构与地缘政治博弈加剧,各国纷纷将 AI 算力芯片提升至国家战略高度,加大政策支持与资本投入。中国作为全球最大的 AI 应用市场之一,在 “十五五” 规划中将人工智能和集成电路置于战略性新兴产业的核心位置,国产算力芯片正迎来前所未有的发展机遇,同时也面临着技术壁垒、生态短板与供应链安全等多重挑战。
本文立足于 “十五五” 新发展阶段,基于经略咨询发布的《2026全球及中国AI算力芯片产业发展研究报告》,系统梳理了 AI 算力芯片产业的发展脉络、市场格局与技术趋势,深入剖析了产业链各环节的现状与竞争态势,指出了产业发展面临的核心挑战并提出突破路径,最后对未来 3-5 年的产业发展方向进行了前瞻展望,旨在为政策制定者、产业参与者与投资者提供全面、客观的行业洞察。
第一章 AI 算力芯片行业概述与政策背景
1.1 产业核心定义与分类
1.1.1 算力与 AI 算力芯片的本质
算力是指计算系统在处理数据、执行算法和完成特定计算任务时所能提供的效能总量,本质上表征了系统在单位时间内处理信息的数据量与复杂程度,通常以每秒执行的浮点运算次数 FLOPS 作为核心量化标准。根据应用场景的不同,算力可分为通用算力、AI 算力和超算算力三类:通用算力主要由 CPU 提供,适用于计算复杂度适中的云计算、边缘计算场景;AI 算力由 GPU、FPGA、ASIC 等加速芯片提供,侧重于处理海量数据的并行计算任务;超算算力由超级计算机集群提供,注重双精度通用计算能力,主要用于尖端科学领域。

AI 算力芯片也称为 AI 加速器,是专门设计和优化用于高效执行人工智能应用中大量并行计算任务的微处理器。与传统 CPU 相比,AI 算力芯片通过大规模并行计算架构设计,解决了 CPU 在处理海量简单并行计算时效率低下、功耗过高的问题。AI 模型尤其是大型深度学习模型需要处理 TB 甚至 PB 级别的数据,神经网络中的大量神经元计算可以同时进行且互不依赖,这一特性与 AI 算力芯片的并行架构高度契合。
1.1.2 主流技术路线及特性对比
目前主流的 AI 算力芯片分为三类,分别是以 GPU 为代表的通用芯片、以 ASIC 为代表的专用芯片和以 FPGA 为代表的半定制化芯片,三类芯片在性能、灵活性、能耗与成本上各有优劣,适用于不同的应用场景。


▌GPU 是面向并行计算的通用加速芯片,最初用于图形和图像处理,凭借海量小处理器的单指令多数据架构,成为当前 AI 算力的主流方案。GPU 的核心优势在于通用性强,能够适配各种 AI 模型的训练与推理任务,且拥有成熟的软件生态支持;缺点是能耗较高,在特定任务上存在算力浪费。
▌FPGA 是可重构的半定制硬件加速器件,内部由可编程的逻辑单元阵列组成,可通过硬件描述语言编程实现不同的功能。FPGA 兼具灵活性与高性能,运算速度优于 GPU,且无需共享内存体系结构,延迟更低;缺点是开发周期长、复杂算法开发难度大、研发成本较高,适合定制化需求较强但需求量不大的场景。
▌ASIC 是面向特定场景的定制化专用芯片,生产时就将电路设计固化,只能执行单一任务。ASIC 的核心优势在于能效比极高,在绑定的特定场景中,算力输出效率远超 GPU 和 FPGA,且功耗更低、体积更小;缺点是研发成本高、设计周期长、灵活性极差,只有在大规模量产时才能分摊前期投入,适用于需求量大、算法稳定的场景。根据优化的具体任务场景,ASIC 可进一步细分为 TPU、NPU、VPU、DPU 等细分品类。

1.2 行业发展历程与技术演进
AI 算力芯片的发展始终围绕 “效率与需求适配” 展开,从通用加速到专用优化的技术路径,映射了人工智能从实验室走向规模化应用的全过程,其历程大致可分为三个核心阶段。
第一阶段是萌芽与奠基期 2006-2012 年,GPU 开启了并行计算之门。这一阶段 AI 尚处于浅层学习阶段,算力需求未形成规模化,但传统 CPU 的串行架构已显露瓶颈。2006 年英伟达推出 CUDA 并行计算架构,首次为 GPU 赋予通用计算能力,打破了 “GPU 仅为图形处理器” 的认知。2009 年斯坦福大学研究团队证实,基于 CUDA 的英伟达 GPU 运行深度学习模型的速度比 CPU 快 100 倍,让产业界意识到 GPU 在 AI 领域的潜力。与此同时,FPGA 开始崭露头角,Xilinx 等厂商推出针对机器学习优化的 FPGA 开发套件,但受限于开发门槛,未形成规模效应。
第二阶段是成长期与分化期 2013-2019 年,GPU 主导与 ASIC 萌芽并行。随着深度学习的爆发,海量数据训练需求催生算力缺口,GPU 凭借生态优势确立主导地位。2013 年谷歌秘密启动 TPU 研发,这是全球首款专为 AI 设计的 ASIC 芯片,针对 TensorFlow 框架的矩阵运算进行硬件固化,能效比达到同期 GPU 的 3 倍以上。2015-2017 年英伟达先后发布 Pascal、Volta 架构 GPU,后者集成专用 Tensor Core,将 AI 算力提升两个数量级,同时 CUDA 生态持续完善,与 TensorFlow、PyTorch 等主流框架深度适配。2017 年谷歌发布 Cloud TPU,将专用芯片开放给云端用户,标志着 ASIC 正式走向公开市场;同年 FPGA 迎来应用爆发窗口,被广泛用于工业预测性维护、汽车 DMS 系统等推理任务。
第三阶段是成熟期与专业化期 2020 年至今,ASIC 崛起与技术路线多元。生成式 AI 推动算力需求指数级增长,GPU 的高功耗与高成本问题日益凸显,企业开始寻求替代方案。2023 年成为 ASIC 规模化爆发的转折点,谷歌推出 TPUv5p 支撑 Gemini 大模型训练,亚马逊发布 Trainium2、Inferentia2 等 NPU 类 ASIC,能效比达到英伟达 H100 的 2 倍以上。更关键的是,ASIC 开始走出巨头生态,苹果、Groq、中昊芯英等企业纷纷推出自研 ASIC 芯片。当前市场形成清晰分工:GPU 凭借生态优势几乎垄断通用训练场景,FPGA 占据边缘可定制推理市场,ASIC 则在云端大模型训练、垂直领域推理等场景快速渗透。
1.3 全球及中国政策环境
1.3.1 全球主要国家战略布局
全球主要国家均将 AI 算力芯片视为战略竞争的核心领域,纷纷出台政策支持产业发展。美国通过《芯片与科学法案》提供 527 亿美元补贴,重点支持先进芯片制造与 AI 芯片研发,同时通过出口管制限制高端 AI 芯片流向中国,试图维持其在全球半导体产业的领先地位。欧盟发布《芯片法案》,计划投入 430 亿欧元提升欧盟在全球芯片市场的份额,重点支持 2nm 以下先进制程与 AI 专用芯片的研发。日本出台《半导体产业振兴计划》,提供 2 万亿日元补贴吸引台积电、三星等企业在日建厂,同时加大对 AI 芯片与先进封装技术的研发投入。韩国推出 “K - 半导体战略”,计划在 2030 年前投入 450 万亿韩元打造全球最大的半导体产业集群,重点支持存储芯片与 AI 芯片的融合发展。
1.3.2 中国 “十五五” 及专项政策支持
中国将 AI 算力芯片产业提升至国家战略高度,形成了以 “十五五” 规划为核心、专项政策为支撑的完整政策体系。《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》多次提及人工智能与算力相关部署,提出推进全国一体化算力网建设,强化算力、算法、数据高效供给,全面实施 “人工智能 +” 行动,为 AI 算力芯片产业发展指明了方向。《数字中国建设整体布局规划》进一步细化了算力产业的发展路径,明确将 “算力高效供给” 纳入数字中国建设的核心任务,提出构建 “东数西算” 为骨干的算力网络体系,强调突破高端芯片等关键核心技术。
在专项政策方面,“东数西算” 工程提出核心芯片等环节优先采购国产方案的导向要求,通过算力基础设施建设间接为国产算力芯片开辟应用空间,同时对符合要求的智算中心给予电价优惠,降低算力芯片规模化应用的运营成本。国家通过科技创新 2030 “新一代人工智能” 重大项目,定向支持异构计算架构、高能效比芯片设计等关键领域攻关。财税政策方面,AI 算力芯片企业可享受研发费用加计扣除优惠,芯片流片、测试验证等特殊费用均被纳入扣除范围。2025 年工信部发布《专用集成电路产业发展行动计划》,明确提出到 2028 年实现 ASIC 芯片在 AI 训练 / 推理、智能驾驶等领域的国产化率突破 60% 的目标,并配套设立专项基金支持关键技术研发。此外,国家市场监督管理总局、国家标准化管理委员会发布《人工智能算力芯片性能评价方法》,统一了算力、能效比、兼容性等核心指标的测试方法与评估规则,为产品研发与市场选型提供了依据。
第二章 AI 算力芯片市场驱动与发展现状
2.1 三大核心驱动因素
2.1.1 生成式 AI 爆发带动算力需求指数级增长
2023 年以来,生成式 AI 的爆发式增长带动全行业算力需求进入爆发期。从互联网企业的大模型训练推理,到金融、能源、交通等传统行业的智能化转型,对高效能智能算力的依赖度持续提升。据 IDC 预测,中国智能算力需求将从 2024 年的 725.3EFLOPS 增长至 2028 年的 2781.9EFLOPS,年复合增长率高达 40%。大模型参数规模的持续扩大不仅需要单纯的算力堆砌,更对芯片与网络、存储的协同能力提出了更高要求。随着需求结构从大模型 “从零训练” 向 “商业化应用” 转变,推理赛道的爆发进一步放大了对差异化算力芯片的需求,推动市场从单一依赖通用 GPU 向多元技术路线演进。

与此同时,美国对华高端 GPU 出口管制的持续升级,进一步加剧了中国国内智能算力的供给缺口。自 2022 年起,美国逐步收紧对华算力芯片出口限制,先后将英伟达 A100、H100、A800、H800、H20 等核心高端芯片纳入禁售清单,导致曾占据中国 GPU 市场 95% 份额的英伟达彻底退出中国高端算力市场。这一局面为国产算力芯片及各类替代方案创造了迫切的市场需求与发展契机,加速了行业自主化进程。
2.1.2 全球科技巨头资本支出向算力倾斜
在 AI 算力需求爆发与供应链安全考量的双重驱动下,全球云服务巨头将资本支出重点投向自研 ASIC 芯片,成为 AI 算力芯片行业结构性增长的关键动力。作为行业风向标,北美四大云厂商谷歌、亚马逊、微软、Meta 的资本支出持续加码,2025 年第三季度合计支出同比激增 75%,达 1133 亿美元,其中相当比例资金专项用于 ASIC 芯片的研发设计、量产落地及配套数据中心建设。据 TrendForce 预测,2026 年全球主要云端服务厂商资本支出将进一步突破 6000 亿美元,年增 40%,而自研 ASIC 正是这一轮资本投入的核心聚焦领域。

各大云服务厂商密集加大 ASIC 自研投入,核心在于破解对单一 GPU 供应商的依赖,同时实现算力成本与效能的双重优化。2023 年英伟达以 376 万颗的出货量占据全球 385 万颗数据中心 GPU 总出货量的 98%,凭借绝对垄断地位掌握了市场定价权。为将原本支付给英伟达的高额利润转化为自身成本优势,同时降低供应链风险,全球云服务厂商纷纷加码 ASIC 芯片自研。谷歌已推出 TPUv6Trillium 并计划 2025 年大规模替代前代产品,还通过新增联发科作为合作伙伴形成双供应链布局;亚马逊云科技以 Trainium2 为当前主力,下一代 Trainium3 预计在 2025 年底实现量产;微软加速推进 Maia 系列 ASIC 开发,同时引入美满电子参与设计以分散风险;Meta 计划在 2025 年底至 2026 年间推出数款高规格 AIASIC 芯片。据行业统计,2025 年谷歌 TPU 预计出货 150-200 万片,亚马逊 AWSTrainium2 预计出货 140-150 万片,两者合计出货量已达到英伟达 AIGPU 产能的 40%-60%。随着科技巨头从 2026-2027 年开始大规模落地自研 ASIC 解决方案,ASIC 总出货量有望在 2026 年某个时点实现对英伟达 GPU 的超越,重塑全球 AI 算力芯片市场的竞争格局。


2.1.3 单位算力降本推动商业化落地
大模型商业化落地的核心诉求之一,在于通过技术迭代持续降低单位算力成本,这一趋势正深刻推动 AI 算力芯片的技术路线向高效能、低成本方向演进。从实际成本变化来看,2022 年 1 月 GPT-3 作为当时唯一能达到 MMLU42 水平的大语言模型,其百万 token 处理成本高达 60 美元;而截至 2024 年 11 月,TogetherAI 提供的 Llama3.23B 在同等性能指标下,百万 token 成本已降至 0.06 美元,成本降幅达千倍级别。据 A16Z 统计,自 ChatGPT-3 发布以来,单位美元可生成的 token 数量持续增长,大模型推理成本呈现每年约 10 倍的下降速度。

成本下降的背后,是算力芯片技术路线的结构性调整。传统通用 GPU 虽凭借强大的通用计算能力长期主导市场,但其高昂的硬件购置成本与高功耗特性,已逐渐难以匹配企业对总拥有成本 TCO 的严格控制需求。相比之下,ASIC 芯片因采用定制化架构设计,可针对特定 AI 任务优化计算流程,在相同算力输出下显著降低单位成本。例如,针对推理场景设计的 ASIC 芯片,无需冗余支持训练阶段的复杂并行计算功能,通过精简架构实现了能效比提升 30%-50%,单位算力的硬件成本较通用 GPU 降低 40% 以上。这种成本优势在大规模推理集群中尤为显著,成为驱动 ASIC 等专用芯片市场份额快速提升的核心动力。

2.2 全球及中国市场规模与增长态势
2.2.1 全球市场:持续扩张,ASIC 成增长引擎
AI 算力芯片市场正处于高速扩张期,整体规模呈现快速增长态势。据 Marvell 统计,2023 年全球 AI 算力芯片市场规模已达 680 亿美元,2024 年突破 1000 亿美元,2025 年预计达到 1430 亿美元,2027 年将攀升至 2020 亿美元,行业增长动能强劲。这种增长既源于生成式 AI、智能驾驶等场景的算力需求爆发,也得益于技术路线的多元化创新。

在市场规模扩张的过程中,ASIC 凭借定制化优势展现出突出的增长潜力。摩根士丹利预测,AIASIC 市场规模将从 2024 年的 120 亿美元增长至 2027 年的 300 亿美元,年复合增长率高达 35%;Marvell 更是将 2027 年 ASIC 市场预期从 430 亿美元上调至 550 亿美元,上调幅度达 28%。对比之下,同期 GPU 市场年复合增长率预计为 25%,CPU 仅为 5%。尽管单颗 ASIC 的峰值算力暂时略低于最先进的 GPU,但在大规模集群部署中,其因高度定制化的架构设计和高效的互联能力,实际算力利用率反而可能超越 GPU 集群。2023 年 ASIC 在全球 AI 算力芯片市场中的占比为 16%,预计 2027 年将提升至 27%,成为推动市场规模持续扩容的关键力量。
2.2.2 中国市场:高速增长,自主化进程加速
中国 AI 芯片市场增长同样强劲,增速显著高于全球平均水平。2020 年中国 AI 芯片市场规模仅为 184 亿元,2023 年增长至 850 亿元,2024 年突破 1200 亿元,2025 年预计将达到 1645 亿元,年复合增长率超 50%。这种高速增长源于多方面驱动:一方面,国内生成式 AI、智能驾驶、智慧城市等场景对算力的需求持续爆发,推动企业加大对 AI 芯片的采购与部署;另一方面,政策对半导体产业尤其是 AI 芯片领域的支持,以及国内芯片企业在技术研发上的持续投入,使得国产 AI 算力芯片的性能与市场认可度不断提升。

美国对华芯片出口管制的升级,进一步加速了中国 AI 算力芯片市场的自主化进程。英伟达退出中国高端 GPU 市场后,留下了巨大的市场空白,华为昇腾、寒武纪、百度昆仑等国产芯片企业迎来了快速发展的机遇。2025 年上半年,国产 AI 芯片在国内市场的份额已突破 40%,其中华为昇腾凭借全栈自主生态优势,占据了国内 AI 加速卡市场 30% 以上的份额。随着国产芯片性能的不断提升与生态的逐步完善,预计 2028 年国产 AI 芯片在国内市场的份额将超过 60%。
2.3 应用场景驱动技术格局分化
2.3.1 训练与推理的差异化需求
AI 大模型的全生命周期任务可划分为训练与推理两个核心阶段,两个阶段对算力的需求存在显著差异,这是技术路线分化的根本驱动力。训练是模型通过海量数据学习规律、构建知识体系的过程,需处理大规模矩阵运算、参数迭代等高强度计算,对芯片的并行计算能力、内存带宽提出极致要求。训练阶段通常采用单个大集群布局,需要集中调度海量芯片的并行计算能力,通过统一的集群架构实现超大规模参数同步迭代,保障训练的效率与模型精度。
推理则是用训练好的模型通过接收输入的信息和对应要求,进行思考并输出结果的过程,是模型应用化落地的关键环节,更侧重低延迟、高能效比的稳定算力输出。推理阶段的集群需求是多个小集群分布,这是由于推理任务更侧重低延迟、高并发的分散响应,小集群可灵活部署在边缘或云端,适配不同场景的实时推理需求。据博通预测,到 2027 年,全球将有三家云计算巨头计划在单一架构上部署拥有 100 万个 XPU 的大规模 AI 超级计算机,是目前单个集群规模的 30 倍以上,算力需求对芯片市场有着绝对性的驱动作用。
2.3.2 不同技术路线的场景适配性
基于训练与推理阶段的差异化布局,不同类型的 AI 算力芯片呈现出显著的适配性差异。GPU 凭借强大的通用计算能力与成熟的软件生态,在大模型训练场景中占据绝对主导地位。GPU 就像 “全能大厨”,能够完成任何菜式的制作,适合需要不断研发新菜、迭代模型的训练场景。在推理场景中,GPU 虽然也能胜任,但由于其通用架构存在冗余设计,会造成资源浪费,能效比低于 ASIC。

ASIC 则与推理场景的技术设计天然适配,就像 “汉堡自动机”,专门为做汉堡定制,出餐又快又节能。ASIC 可针对特定推理算法进行硬件级定制优化,剔除冗余计算单元,在相同算力输出下实现更低功耗与成本。以语言理解场景为例,ASIC 可通过定制化指令集优化文本处理流程,比通用 GPU 的能效比提升 30% 以上;在面部识别、动态定价、自动驾驶感知等对延迟敏感、计算逻辑固定的场景中,ASIC 的优势更为明显。在训练场景中,随着大模型架构的逐步稳定,针对特定模型优化的 ASIC 也开始展现出竞争力,谷歌 TPU、亚马逊 Trainium 等 ASIC 芯片已被用于大规模大模型训练。
FPGA 则凭借其灵活性,在工业、边缘计算等细分场景保持稳定需求。FPGA 适合算法仍在快速迭代、需求量不大的定制化场景,如工业预测性维护、网络安全、机器人等领域。

从技术路线竞争格局来看,2024 年 GPU 在全球 AI 算力芯片市场中占据 82% 的份额,ASIC 占比 17%,其他技术路线如 FPGA、类脑芯片等合计占比仅 1%。随着大模型迭代完毕,进入大量推理阶段,ASIC 的市场占比将持续提升。据 McKinseyAnalysis 预测,在数据中心侧,2025 年 ASIC 在推理应用的占比将达到 50%,异构计算多种芯片协同满足不同场景需求,如 GPU+ASIC 未来有望成为主流。

2.4 市场结构深度变革
2.4.1 供给侧:从单一垄断到多元竞合
市场供给结构正经历深刻变革,其核心特征是从英伟达一家独大的 “垂直垄断” 模式,向多种技术路线、多类市场参与者并存的 “多元竞合” 生态演变。
以英伟达为代表的生态级厂商,通过 “尖端硬件 GPU + 牢不可破的软件生态 CUDA” 构建了极高的竞争壁垒,长期主导尤其是训练市场的供给。其商业模式的核心在于,通过硬件销售锁定用户,再通过软件生态提升用户粘性,形成闭环。然而,这种封闭性也催生了市场对开放性、定制化和成本优化的新需求,为其他参与者提供了突破口。
以博通、Marvell 及众多国产芯片企业为代表的专用算力厂商,正通过 ASIC 路线实现差异化竞争。它们不寻求在通用性上正面抗衡,而是精准卡位 “推理市场爆发” 和 “特定场景垂直深耕” 两大机遇。其核心竞争力在于,深度绑定头部云厂商或行业用户,针对其稳定且规模化的算法负载进行硬件级定制,以数倍的能效比优势,在特定领域挑战通用芯片的统治地位。
谷歌、亚马逊、微软等云巨头是当前市场变局中最关键的力量。它们通过自研 ASIC 芯片,发起了一场深刻的 “去依附” 运动。其动机不仅是降低对单一供应商的依赖以控制成本和保障供应链安全,更深层的目的是将算力这一核心基础设施与自身的云服务深度集成,构建从底层硬件到上层应用的独一无二的垂直生态,从而在未来的 AI 服务竞争中确立差异化优势。这标志着市场的主导权开始从硬件供应商向拥有最终用户和场景的平台企业部分转移。
2.4.2 需求侧:从技术采购到战略采购
市场需求侧的采购逻辑与评估标准正在发生根本性转变,驱动力量从追求峰值算力的 “技术驱动” 转向关注综合效益的 “场景驱动”。
评估标准发生了从 FLOPS 到 TCO 的范式转移。早期 AI 投资主要由研发驱动,采购决策高度关注芯片的峰值算力 FLOPS。随着 AI 进入规模化应用阶段,企业的决策核心已转变为对总拥有成本的精细化考量。TCO 不仅包含硬件采购成本,更囊括了巨大的电力消耗、机房空间、冷却系统开支以及软件适配和团队维护成本。正是这种 TCO 压力,使得在推理和特定训练任务中,能效比高出数倍的 ASIC 芯片具备了强大的经济吸引力。
算力部署模式从 “集中建设” 向 “层次化分布” 演进。市场需求正根据场景特性自然分层:一方面,用于大模型训练的 “超大规模智算中心” 需求依然旺盛,其特点是集中化、GPU 主导、对互联性能要求极致;另一方面,海量的推理需求则催生了 “边缘算力节点” 的快速部署,这些节点更贴近数据产生地,对芯片的功耗、体积、成本和延迟有苛刻要求,成为 ASIC 和 FPGA 的主战场。这种 “中心 - 边缘” 协同的层次化部署模式,决定了单一技术路线无法满足所有市场需求。
采购策略从 “技术采购” 转向 “战略采购”。企业的采购行为愈发具有战略属性。对于云厂商和大型科技公司,投资或自研芯片是保障算力主权、优化成本结构和构建生态壁垒的核心战略。对于传统行业用户,采购决策则与自身的数字化转型深度绑定,他们更倾向于选择能提供 “芯片 + 算法 + 行业知识” 全栈解决方案的供应商,而非单纯的硬件厂商。这使得市场从单纯的技术产品竞争,升级为产业生态协同能力的竞争。

第三章 AI 算力芯片产业链深度解析
3.1 产业链全景与价值分布
AI 算力芯片产业是构建在微电子、计算机科学和先进制造技术深度融合基础上的战略性新兴产业,形成了从上游核心硬件、中游制造集成到下游应用拓展的完整产业生态。产业链上游主要包括晶圆代工、先进封装、载板制造与测试设备等环节,是产业发展的基础,技术壁垒最高,价值占比也最大,约占整个产业链价值的 60% 以上;产业链中游主要包括芯片架构设计与 IP 授权、硬件集成与系统适配等环节,是技术创新的核心,价值占比约 25%;产业链下游主要包括云服务厂商与各类行业应用场景,是算力价值的最终兑现环节,价值占比约 15%。

作为典型的技术与资本双密集型产业,AI 算力芯片不仅研发投入巨大、技术门槛高,而且从设计到量产周期长,对产业链各环节的协同配合要求极高。当前,全球 AI 算力芯片产业链呈现出高度全球化分工的格局,但在地缘政治影响下,产业链本土化趋势日益明显,各国纷纷加强产业链自主可控能力建设。
3.2 上游:核心制造与封装测试环节
3.2.1 晶圆代工:先进制程高度集中,国产替代稳步推进
AI 算力芯片的性能突破与规模化应用,离不开晶圆代工环节的技术支撑与产能保障。当前晶圆代工市场呈现出技术集中度高、产能竞争激烈的发展态势。2025 年第二季度,台积电以 71% 的市场份额占据绝对领先地位,三星以 16% 的份额位居第二,中芯国际以 8% 的份额排名第三,其他厂商合计占比 5%。

在 AI 算力芯片的晶圆代工领域,先进制程工艺是性能突破的核心壁垒。当前能够大规模量产 5nm 及 3nm 芯片的代工厂主要集中在台积电和三星。谷歌 TPU 系列芯片、微软 Maia100、MetaMTIAv2 等主流 AI 加速芯片均采用台积电 5nm 工艺生产;亚马逊下一代 Trainium3 规划采用台积电 3nm 工艺。三星虽在 AI 加速芯片代工领域份额相对有限,但也参与了部分细分市场布局,例如百度昆仑 1 代 AI 芯片便采用三星 14nm 工艺制造。
中国大陆晶圆厂在先进制程领域仍存在明显差距。中芯国际目前先进工艺停留在 7nm 左右的试产阶段,尚不足以承接主流 AI 算力芯片的大规模生产需求。不过,国内代工厂正通过技术创新与路径探索破局:华虹、中芯国际等企业加速推进 N+2 工艺研发,并积极布局 Chiplet 技术方案。Chiplet 通过将不同制程的芯片模块集成,既规避了单一先进制程的技术瓶颈,又能实现性能与成本的平衡,为国内晶圆厂参与 AI 算力芯片制造开辟了过渡路径。
3.2.2 先进封装:CoWoS 成关键瓶颈,国内企业加速突破
AI 算力芯片因集成海量晶体管带来的高发热与高带宽需求,对封装技术提出极致要求。众多 AI 芯片采用多裸片集成的 2.5D 封装设计,通过硅中介层将多个小芯片互联,并堆叠高带宽存储 HBM 于同一封装内,这种架构大幅提升了单位面积算力密度,但也对封装工艺的精度与可靠性形成挑战。
台积电凭借自有 CoWoS 技术占据行业制高点,其为英伟达 H100、谷歌 TPU 提供的封装服务,实现了 HBM 与计算核心的高效整合。CoWoS 技术能将逻辑芯片、高带宽内存等异构元件三维堆叠集成,实现 “近存计算” 架构,让 ASIC 芯片数据传输功耗降低 50%,是 ASIC 芯片发挥极致能效比的关键工艺。台积电占据全球 CoWoS 产能的 85% 以上,出货量几乎被英伟达、博通和 AMD 垄断,该封装产能短缺一直是制约 ASIC 发展的瓶颈。2025 年台积电 CoWoS 月产能达 6.5-7.5 万片,较 2024 年翻倍,却仍难以完全满足市场需求。2026 年台积电 CoWoS 月产能将提升至 90-95K,较 2025 年底增长 33%,将极大缓解 ASIC 产业的核心痛点。


国内封测企业也在加速追赶,长电科技在光电共封 CPO、大尺寸 FC-BGA 封装等领域取得突破性进展,其 XDFOI2.5D 技术已实现国际客户 4nm 节点产品出货;通富微电则深度绑定 AMD,在 Chiplet 与异构集成技术上持续突破,为国产 AI 芯片封装提供了多元化选项。
3.2.3 载板与测试:高端材料设备依赖进口,国产替代空间大
载板环节的竞争同样激烈,高端 ABF 封装基板因适配多裸片互联的大尺寸、多层数需求,成为 AI 芯片供应链的关键瓶颈。日韩及中国台湾企业长期垄断 ABF 载板市场,2023 年内资厂商产值占比不足 5%。但国内企业正加速突破,深南电路、兴森科技等布局的 ABF 载板项目总投资超 200 亿元,兴森科技 FCBGA 封装基板已进入小批量生产阶段,预计 2025 年国产 ABF 膜将实现从 0 到 1 的突破。材料端,沪电股份、生益科技的高速覆铜板与多层板技术,也在逐步满足 AI 芯片封装对信号传输效率的严苛要求。
测试环节是保障 AI 芯片良率的最后一道关卡。高性能 ASIC 需经过晶圆测试与成品测试的多轮验证,安捷伦、泰瑞达等国际巨头凭借技术积累占据主流市场。而国内华峰测控在模拟及数模混合信号测试领域已实现进口替代,其市场份额持续提升,为国产 AI 芯片量产提供了关键设备支撑。同时,东方中科等企业推出的热租测试工具,也在 AI 芯片的信号完整性与性能验证中发挥重要作用。
3.3 中游:芯片设计与系统集成
3.3.1 芯片架构设计与 IP 授权:定制化需求爆发
芯片架构设计与 IP 授权是 AI 算力芯片产业链的技术核心,当前呈现出国际巨头主导、国产力量崛起、技术协同深度绑定的发展格局。在芯片架构设计领域,无论是通用 GPU 还是专用 ASIC,其研发均需经历前端架构设计与后端物理实现的复杂流程,而关键 IP 的获取与产业链协同是突破技术壁垒的核心挑战。高性能 SerDes 高速接口、HBM 内存控制器、片上网络 NoC 等关键 IP 往往由专业公司经多年技术沉淀形成,并受严密知识产权保护。
全球市场中,博通作为最大的定制芯片设计服务商,IP 储备覆盖计算、存储、网络 IO、封装等全领域,可满足云端各类加速芯片 XPU 的设计需求,已拿下谷歌、微软等至少五家云厂商的定制芯片订单,2024 年其 AI 相关收入达 122 亿美元,同比激增 220%。Marvell 亦在定制芯片领域布局深厚,目前服务亚马逊等三家客户的项目,预计 2025-2026 年其定制 AI 芯片营收将达 10 亿美元级别。台系厂商世芯电子、创意电子助力亚马逊完成最新一代 Trainium 芯片的设计;联发科参与谷歌下一代 TPU 芯片的 SerDes 方案整合,形成了全球范围内的技术协作网络。
国内市场方面,芯原股份等企业凭借丰富的 SoC 设计服务经验与 IP 授权业务,有望在国产 AI 算力芯片需求增长中迎来机遇。芯原股份已实现 5nmFinFET 系统级芯片一次流片成功,多个 5nm/4nm 一站式服务项目正在执行,其 NPUIP 已在全球 91 家客户的 140 多款芯片中获得采用,相关芯片出货已经近 2 亿颗。在 EDA 工具领域,全球市场由 Synopsys、Cadence 主导,国内华大九天等厂商虽在部分领域实现突破,但在 5nm 以下先进制程的复杂电路设计中,仍需与海外工具协同。
3.3.2 硬件集成与集群互联:高速网络成核心支撑
AI 算力芯片的价值兑现,离不开硬件集成环节的系统适配与网络支撑,该环节涵盖计算模组与系统集成、集群互联与网络设备两大核心方向,是算力从芯片到规模化应用的关键桥梁。
在计算模组与系统集成层面,AI 算力芯片需与服务器硬件深度整合才能释放算力价值。云服务厂商通常将芯片封装为加速卡或计算模组,集成电源管理、高速接口及冷却散热设计等完整系统。例如谷歌 TPU 推出板卡产品,4 个 TPU 芯片组成一个模块;亚马逊 Trainium2 则设计每台服务器 16 颗芯片互联的专用加速实例。这一集成过程多由 ODM 厂商或服务器厂商完成,浪潮信息、富士康等服务器制造商具备将 AI 芯片集成为整机并部署于数据中心的能力。国内中科曙光、紫光股份等企业在服务器整机和加速卡生产领域布局深厚,随着 AI 算力芯片部署规模扩大,整机出货量将同步增长。
集群互联与网络设备是大规模 AI 集群高效运行的另一核心支撑。大规模 AI 集群的组建依赖高速低延迟的网络互联,不同技术路线的芯片呈现差异化的网络架构选择:英伟达 GPU 集群多采用专有的 InfiniBand+NVLink 架构,而 ASIC 芯片集群普遍以以太网为主干网络。云厂商倾向于使用 “白盒交换机” 搭配标准以太网协议,实现低成本的横向扩展。全球白盒交换机硬件供应以台湾厂商智邦科技、广达、纬颖及 EMS 巨头天弘科技为主,Arista 等公司则在高性能商用以太网交换机市场占据领先份额。交换机的核心部件是交换芯片,主要由博通、Marvell 等少数厂家供应,芯片成本占整机成本约三成。
随着 AI 集群规模从数千节点扩展到数万节点,对超大规模交换网络的需求激增。英伟达最新集群已实现 10 万卡互联,谷歌 TPUv5e 通过光纤 + 3DTorus 架构将集群规模拓展到 5 万卡,以太网交换芯片也演进到 51.2Tb/s 甚至更高带宽。此外,为实现机架内 AI 算力芯片模块的高效连接,主动高速线 AEC 开始被广泛采用。AEC 是内置信号放大芯片的高速铜缆,能在较长距离传输高速信号且功耗和成本低于光模块方案。自 2023 年起,北美云厂商逐步以 AEC 替换传统无源直连铜缆 DAC,预计 2025 年起短距高速连接市场中 AEC 增速最快,到 2028 年 AOC 光纤、有源 / 无源铜缆市场规模将达 28 亿美元。
3.4 下游:云厂商主导,行业应用全面渗透
3.4.1 云服务厂商:自研芯片成趋势
云服务厂商是 AI 算力芯片下游市场的核心驱动力,以谷歌 TPU、亚马逊 Trainium 为代表的云端算力芯片,深度嵌入云厂商的 AI 服务体系,成为支撑大模型训练和大规模推理的算力底座。随着云厂商自研算力芯片的普及,下游市场正呈现 “云厂商主导 + 垂直场景定制” 的发展格局。
例如微软 Maia 芯片专为 AzureAI 超算集群设计,实现了芯片与云服务的深度协同;国内阿里、百度也在布局适配自身生态的云端算力芯片,通过定制化硬件优化云服务的 AI 性能与成本。这种 “自研芯片 + 云服务” 的模式,既强化了云厂商的技术壁垒,也推动 AI 算力芯片向场景化、生态化方向发展,为下游应用提供了更高效的算力供给。
3.4.2 垂直行业应用:从互联网到千行百业
AI 算力芯片的商业应用场景正从互联网核心领域向千行百业全面渗透,形成多维度、多层次的应用生态。
在消费终端场景,AI 算力芯片是智能终端实现 “本地智能” 的核心支撑。智能手机领域,高通、联发科等厂商的移动 AI 芯片支持实时图像优化、语音助手本地唤醒、AR/VR 交互等功能;智能家电场景中,边缘 AI 算力芯片赋能冰箱、空调等设备实现行为预测、故障自诊断;消费电子领域,智能手表、TWS 耳机通过低功耗 AI 芯片实现健康监测、语音指令本地处理,提升用户体验的同时保障数据隐私。
在工业制造场景,AI 算力芯片是 “智能制造” 落地的关键技术载体。在产线检测环节,机器视觉 AI 芯片对生产过程中的产品缺陷进行实时识别,检测精度可达微米级,较传统人工检测效率提升 10 倍以上;预测性维护场景中,边缘 AI 芯片嵌入工业设备,对振动、温度等数据进行实时分析;此外,在工业机器人领域,AI 算力芯片支撑机器人的自主导航、避障与协作,推动产线从 “自动化” 向 “智能化” 跨越。
在交通出行场景,AI 算力芯片是智能驾驶技术迭代的 “动力源泉”。在车载场景,从 L2 级辅助驾驶到 L4 级自动驾驶,算力需求呈指数级增长:L2 级系统依赖 GPU 实现基础感知,而 L4 级则需专用自动驾驶芯片支持多传感器融合、高精度定位与决策规划,单台车算力需求从数十 TOPS 跃升至千 TOPS 级别;在智慧交通领域,路侧 AI 算力芯片对车流量、违章行为进行实时分析,推动交通信号配时优化、拥堵预警,使城市路口通行效率提升 30% 以上。
在城市与社会治理场景,AI 算力芯片深度融入公共服务体系。智慧安防场景中,边缘 AI 芯片对监控视频进行实时分析,实现异常行为的秒级预警,较传统人工监看效率提升百倍;在智慧城市管理中,AI 算力芯片赋能物联网设备,对城市管网、路灯、垃圾处理等设施进行状态监测与智能调度;医疗领域,AI 算力芯片在影像诊断、辅助决策中发挥关键作用,推动医疗资源的普惠化与精准化。
第四章 全球及中国主要企业竞争格局
4.1 全球市场竞争格局
4.1.1 GPU 市场:英伟达绝对主导,AMD、英特尔追赶
GPU 市场呈现出高度集中的竞争态势,英伟达以绝对优势主导市场。2024 年,英伟达在全球 GPU 市场占据 94% 的份额,AMD、Intel 等其他厂商合计仅占 6%。这种市场结构反映出英伟达在 GPU 技术、生态建设等方面的深厚积累,使其在 AI 训练等通用算力场景中具有难以撼动的地位。
AMD 凭借 RDNA 架构与 CDNA 架构的融合,在兼顾游戏与 AI 计算的同时,持续拓展在 AI 推理与边缘计算场景的应用。其 MI 系列加速器在部分云厂商与企业客户中获得了一定的市场份额,但在生态成熟度与性能上仍与英伟达存在差距。英特尔则通过收购 HabanaLabs 进入 AI 芯片市场,推出了 Gaudi 系列加速器,主打高性价比与开放生态,但目前市场份额仍较小。
4.1.2 ASIC 市场:博通领先,云厂商自研崛起
在 ASIC 市场,博通则处于领先地位。2024 年,博通占据 55% 的 ASIC 市场份额,Marvell 占 14%,其他厂商合计占 31%。博通凭借在定制化芯片设计、IP 储备等方面的优势,成为云厂商等客户在 ASIC 芯片领域的重要选择。Marvell 则凭借在高速数据传输和低功耗架构方面的专长,与亚马逊、微软等云厂商达成合作,ASIC 业务快速增长。
与此同时,云厂商自研 ASIC 正在快速崛起,成为市场不可忽视的力量。谷歌、亚马逊、微软、Meta 等云巨头均已推出自研 ASIC 芯片,并大规模应用于自身的云服务与 AI 业务中。云厂商自研芯片不仅能够降低对第三方供应商的依赖,还能针对自身的业务负载进行深度优化,实现性能与成本的最佳平衡。预计未来几年,云厂商自研 ASIC 的市场份额将持续提升,成为挑战博通等传统芯片厂商的重要力量。

4.2 国际头部企业分析
4.2.1 英伟达:生态壁垒稳固,布局 ASIC 新赛道
英伟达的成长脉络与 GPU 技术的演进深度绑定,其产品研发历程堪称半导体行业技术迭代的标杆。1999 年英伟达推出首款 GPU “GeForce256”,首次提出 “GPU” 概念;2006 年 CUDA 平台的发布是里程碑事件,为通用计算开辟了道路;2012 年深度神经网络 AlexNet 在英伟达 GPU 上的成功训练,让业界看到了 GPU 在 AI 训练中的潜力。此后,英伟达 GPU 产品从早期的 Tesla 系列到 Volta 架构引入 Tensor Core,再到 Ampere 架构的 H100GPU 将 AI 算力推向 ExaFLOPS 级别,每一代产品都在性能、能效与生态上实现突破。
英伟达在 GPU 市场的地位呈现出 “技术领先 + 生态垄断” 的双重特征。技术层面,英伟达 GPU 在算力密度、能效比与软件适配性上长期领先,以 H100GPU 为例,其 FP8 算力达 4PetaFLOPS,能效比是上一代产品的 3 倍,且通过 NVLink 互联技术可实现数万颗 GPU 的集群化部署。生态层面,CUDA 平台经过十余年发展,已形成 “开发者 - 厂商 - 用户” 的庞大生态闭环,全球超千万开发者基于 CUDA 开发 AI 应用,数万家企业采用英伟达 GPU 构建解决方案。这种生态粘性使客户难以转向其他平台,据统计,全球 Top500 超算中心中,90% 以上采用英伟达 GPU。

财务表现方面,英伟达近年迎来爆发式增长。2023 年总营收达 365 亿美元,2024 年飙升至 1305 亿美元,GPU 营收增速均超 120%。这一爆发主要受全球 AI 技术热潮推动,大模型训练、智能驾驶、云计算等场景对其高性能 GPU 的需求呈爆发式增长。

最新战略动态方面,2025 年 1 月英伟达正式成立 ASIC 部门,并计划在中国台湾招募上千名芯片设计、软件开发及 AI 研发人员。此后,英伟达进一步推出 NVLinkFusion 平台,构建半定制化 AI 基础设施,正式跨足半定制化 ASIC 市场,联发科、世芯电子等台企成为其合作伙伴。这一举措标志着英伟达在巩固 GPU 市场主导地位的同时,开始向 ASIC 市场拓展,试图在 AI 算力硬件领域构建更全面的竞争优势。

4.2.2 博通:定制化 XPU 龙头,绑定全球科技巨头
博通的成长史是半导体行业成功的典范,通过十余次精准并购,它将 LSI 的逻辑芯片、老博通的通信技术、VMware 的虚拟化软件等优质资源整合,搭建起完整的 AI 解决方案版图。2016 年陈福阳主导以 370 亿美元收购老牌通信芯片企业博通,获得了关键的交换芯片技术;2023 年完成对 VMware 的 610 亿美元收购后,博通已蜕变为软硬件收入比达 6:4 的科技巨头。
博通的成功关键在于开辟了一条与通用 GPU 形成鲜明差异的定制化赛道。在英伟达 GPU 主导的 AI 训练市场之外,博通聚焦 AI 推理等特定场景,以 “客户定义 + 博通赋能” 的商业模式,为谷歌、Meta、字节跳动、OpenAI 等科技巨头提供定制化 ASIC 芯片博通称之为 XPU。“XPU” 模式的核心逻辑在于精准匹配客户核心需求,针对客户专属算法、系统与模型进行硬件级优化,无需兼容 CUDA 生态,从而在性能、成本与能耗上实现突破。例如谷歌 TPUv6 在搜索推荐系统中,单位算力成本仅为英伟达 H100 的 1/5,能效较上一代提升 67%。同时,依托自身在网络领域的深厚积累,博通以 SerdesIP 为核心,提供从交换机芯片、网卡芯片到 DPU 的全链路网络解决方案,构建起媲美英伟达 NVLINK + 迈洛思的高速互联能力。

财务表现方面,2024 年博通实现 515 亿美元营收,其中 AI 业务部门收入暴增 220% 至 122 亿美元。其 CEO 陈福阳预计,仅谷歌、Meta、字节跳动三大客户就将在 2027 年贡献 600-900 亿美元收入。最新战略动态方面,2025 年 10 月 13 日,博通与 OpenAI 官宣达成价值百亿美元的合作协议,双方将联合开发 10 吉瓦定制人工智能加速器 XPU。OpenAI 负责加速器与系统设计,博通承担开发与部署工作,计划于 2026 年下半年启动相关部署,并在 2029 年底完成全部交付。这一合作进一步深化了博通在定制化 AIASIC 赛道的布局。

4.2.3 Marvell:从存储到 AI,ASIC 业务快速增长
Marvell 于 1995 年在美国加州圣塔克拉拉成立,最初以存储控制器芯片闻名业界。这家半导体公司经历了多次行业周期和技术变革,逐步从单一的存储解决方案提供商转型为全方位的数据中心基础设施半导体公司。近年来与 AWS 达成的 ASIC 合作协议彻底改变了公司的增长轨迹。

财务表现方面,Marvell 在 2025 年第二季度实现营收 21 亿美元,同比增长 61.95%,其中数据中心收入达到 15 亿美元,占总收入的 72%,同比增长 67%。在数据中心业务中,与人工智能相关的收入占比超过 50%,主要由 2024-2025 年间市场对 ASIC 的需求激增所推动。
性能优势方面,Marvell 的 ASIC 采用 5nm 制程工艺,集成了高带宽内存 HBM3,核心在于优化 AI 模型中的矩阵运算,特别是深度学习中的张量计算。与英伟达的通用 GPU 相比,Marvell 的 ASIC 去掉了图形渲染等不必要的功能,将每瓦电力的算力效率提升到极致。其 TrainiumASIC 的能效比达到 25FLOPS/W,是英伟达 A100 的 2.5 倍,训练时间缩短 33%,推理延迟降低 50%。

最新战略动态方面,公司 CEO 马修・墨菲在 CES2025 上透露,2024 年 12 月与亚马逊签订的五年多代协议中,60% 金额来自 ASIC 设计项目,40% 来自网络和连接解决方案。此外,Marvell 与微软合作的 AIASIC 产品将于 2026 年量产,届时公司 ASIC 客户将进一步扩大。不过,Marvell 也面临着日益激烈的竞争压力,联发科已抢下微软自研芯片订单,取代 Marvell 的部分份额,世芯电子可能将独家拿下亚马逊下一代 Trainium 订单。

4.3 中国核心企业分析
4.3.1 华为昇腾:全栈自主生态,国内市场份额领先
华为是国内 AI 算力芯片领域的领军企业,其昇腾系列 AI 芯片已形成完整的产品矩阵,覆盖从边缘到云端的全场景算力需求。昇腾 910 是华为推出的云端训练芯片,采用 7nm 制程工艺,FP16 算力达 320TFLOPS,性能对标英伟达 A100。2025 年华为推出的昇腾 950 采用四晶片封装技术,集成四颗昇腾 910B 芯片与自研 HiBL1.0 高带宽内存,内存带宽提升至 4TB/s,片间互联带宽达 2TB/s,算力密度较前代实现跨越式提升。
华为的核心优势在于构建了全栈自主的 AI 生态体系,包括昇腾芯片、CANN 异构计算架构、MindSporeAI 框架、ModelArts 开发平台等。这种全栈自主的生态体系,不仅解决了供应链安全问题,还实现了软硬件的深度协同优化。截至 2025 年,华为昇腾社区开发者数量已突破 100 万,适配了超过 1000 个主流 AI 模型,在国内政务、金融、能源、交通等行业实现了规模化应用。2025 年华为昇腾 AI 加速卡出货量突破 100 万片,国内市场份额超过 30%,成为国产 AI 算力芯片的第一品牌。
4.3.2 寒武纪:云端芯片标杆,商业化加速
寒武纪于 2016 年在北京成立,是国内首家专注于人工智能芯片设计的企业,自成立起便聚焦深度学习处理器研发,开启国产 AI 算力芯片的探索之路。公司沿着 “云端 + 边缘端” 双赛道持续迭代产品矩阵,云端芯片思元系列不断升级,从早期的思元 100、思元 290,到后续推出思元 370、思元 590 等高性能型号,算力与能效持续突破。
2023 年发布的思元 590 堪称标杆产品,性能较思元 370 实现翻倍以上提升,综合实力对标英伟达 A100。百度内部测试显示其对绝大多数主流模型的支持率优异,整体性能达到 A100 的 80% 水平,在 FP16 精度下算力表现突出,且在推荐系统等场景中能效比达到英伟达 H100 的 1.8 倍。寒武纪计划 2025 年第四季度量产 5nm + 工艺的思元 790,通过集成 HBM3E 显存使算力再提升 50%,进一步切入超大规模模型训练市场。

财务表现方面,2024 年是公司发展的关键转折年,营收结构实现根本性重塑,云端智能芯片及板卡业务占比从 2023 年的 13.5% 飙升至 99.3%,全年总营收达 11.74 亿元。进入 2025 年,增长势头进一步提速,第三季度单季营收达 17.27 亿元,同比增幅高达 1339%,归母净利润达 5.67 亿元,同比成功扭亏为盈,且已连续四个季度实现盈利。不过,寒武纪也面临着软件生态建设的挑战,其自研的 NeuWare 软件生态虽已支持 PyTorch 等主流框架及多款开源大模型,开发者数量超 10 万,但与英伟达 CUDA 生态仍存在量级差距。

4.3.3 芯原股份:IP + 定制服务,受益于 ASIC 浪潮
芯原股份主要有两大核心业务模式,即半导体 IP 授权服务和一站式芯片定制服务。在半导体 IP 授权服务领域,芯原股份采用 “授权不售卖” 的模式,将自主研发的各类 IP 以授权形式提供给客户使用,收费方式分为一次性 IP 授权费和量产后特许权使用费。目前其 IP 库已覆盖消费电子、汽车、物联网等多领域的核心应用场景。
一站式芯片定制服务是芯原业务的另一重要组成部分,业务覆盖 “芯片定义 - 设计 - 流片 - 封装测试 - 交付” 的全流程总包。客户仅需提出芯片功能需求,芯原便可从架构设计环节切入,整合自有或第三方 IP,完成芯片的前端设计、后端物理实现,再对接晶圆厂开展流片、协调封测厂完成封装测试,最终向客户交付成品芯片。这种 “交钥匙” 式的服务模式,显著降低了客户的芯片研发门槛,尤其为缺乏全流程芯片设计能力的企业提供了高效的解决方案。
财务表现方面,2025 年第三季度,芯原股份量产业务表现尤为突出,实现收入 6.09 亿元,同比猛增 157.84%,环比增长 132.77%,成为拉动公司营收增长的第一主力;芯片定制设计业务同样表现优越,实现收入 4.28 亿元,同比增长 80.23%。2025 年前三季度,芯原股份一站式芯片定制业务收入同比增长 53.51%,远超半导体 IP 授权业务 3.86% 的增速。随着全球 ASIC 定制需求的爆发,芯原股份作为国内领先的芯片设计服务提供商,将充分受益于这一行业趋势。

4.3.4 云厂商自研:百度昆仑、阿里含光、腾讯紫霄
国内云厂商也纷纷布局自研 AI 芯片,以降低对外部供应商的依赖,优化自身云服务的性能与成本。百度昆仑是国内较早推出的云端 AI 芯片,目前已迭代至昆仑 3 代,采用 7nm 制程工艺,FP16 算力达 256TFLOPS,主要应用于百度搜索引擎、文心一言大模型等业务。阿里含光800 是阿里推出的云端推理芯片,采用 12nm 制程工艺,在 ResNet-50 模型上的推理性能达 78563IPS,能效比是英伟达 T4 的 3.3 倍。腾讯于 2024 年推出紫霄 AI 芯片,采用 7nm 制程工艺,主要用于腾讯云的 AI 推理业务,支持计算机视觉、自然语言处理等多种 AI 任务。
第五章 产业核心挑战与突破路径
5.1 技术路线选择的平衡难题
5.1.1 ASIC 开发周期与 AI 算法快速迭代的矛盾
ASIC 面临的首要挑战来自于其较长的开发周期与行业快速迭代节奏之间的不匹配。根据行业数据,ASIC 从需求定义、架构设计到流片验证和量产的完整流程通常需要 2-3 年时间。相比之下,GPU 领域的领先企业英伟达已将产品迭代周期从两年一次缩短至一年一次,这种加速迭代的策略使得 ASIC 在应对市场变化时显得力不从心。
更值得关注的是,AI 模型架构和算法仍在快速演进中,从 Transformer 到 Mamba 等新架构的不断涌现,使得芯片设计需要面对持续变化的技术环境。这种快速变化导致 ASIC 在设计阶段确定的技术方案,可能在量产时已经无法完全匹配最新的算法需求。特别是在大模型训练、自动驾驶等前沿领域,技术路径尚未完全固化,进一步增加了 ASIC 技术路线选择的难度。
5.1.2 通用与专用的取舍
ASIC 的定制化特性在带来能效优势的同时,也导致了其在应对需求变化时的灵活性不足。GPU 凭借其通用架构,仅通过软件更新和驱动升级就能适配新的计算任务和 AI 框架,这种灵活性在技术快速变革的环境中显得尤为重要。通用计算设备的价值在于能够适应 AI 模型的快速变化,通过代码修改即可实现不同 AI 应用和研究方向之间的切换,这种特性在当前技术演进阶段具有显著优势。
具体而言,当目标算法发生迭代或应用场景需求变化时,基于特定算法优化的硬件架构往往难以快速调整,导致前期投入的研发资源无法有效复用。在 AI 应用场景尚未完全固化的背景下,过早锁定特定架构可能导致芯片功能与最终市场需求产生偏差。例如,在智能客服、内容生成等应用领域,算法模型仍在持续优化,专用芯片可能面临刚量产就需要架构调整的困境。
5.2 供应链安全与成本控制压力
5.2.1 先进制程与设备的外部依赖
当前 AI 算力芯片产业链的关键环节仍存在较高的外部依赖度。在制造环节,高端制程产能主要集中在少数几家代工厂,5nm 以下先进制程的供应来源尤为有限。这种集中度使得整个产业在面对地缘政治变化或产能调整时显得脆弱。美国对华半导体出口管制的持续升级,进一步加剧了中国企业获取先进制程产能与设备的难度。
在设备和材料领域,情况同样不容乐观。光刻机、刻蚀机等核心设备,以及高端光刻胶、大尺寸硅片等关键材料的供应体系相对固化,新兴芯片企业难以获得稳定且及时的供应保障。即便是相对成熟的制程节点,先进封装产能的瓶颈也开始显现。随着 Chiplet 等先进封装技术的普及,对 2.5D/3D 封装产能的需求快速增长,但全球范围内具备大规模量产能力的供应商有限,这导致封装成本在芯片总成本中的占比显著上升,同时也影响了产品的最终交付时间。
5.2.2 研发与制造成本持续攀升
AI 算力芯片的研发投入呈现出持续攀升的趋势。从团队组建来看,一个完整的芯片研发团队需要架构师、设计工程师、验证工程师等各类专业人才,人力成本在总研发投入中占比超过 60%。EDA 工具授权费用同样不容小觑,先进工艺节点的全套工具授权年费可达数百万美元。而最关键的流片环节,7nm 制程的单次流片成本就超过 3000 万美元,5nm 及更先进制程的流片费用更是成倍增长。
在量产阶段,成本压力主要来自两个方面。首先是规模效应难以实现,除少数头部企业外,大多数芯片公司的出货量难以达到经济规模,导致单位成本居高不下。其次是供应链波动带来的成本不确定性,从晶圆原材料到封装测试,各个环节的价格波动都会直接影响最终成本。特别是在当前全球半导体产业格局调整的背景下,供应链本土化趋势使得成本结构发生显著变化,如何平衡供应链安全与成本控制成为企业面临的重要课题。
5.3 软件生态构建的长期挑战
5.3.1 CUDA 生态的垄断壁垒
英伟达通过十余年持续投入构建的 CUDA 生态,已成为 AI 计算领域的事实标准。这一生态体系包含从底层驱动、编译器到上层库函数的完整软件栈,形成了显著的先发优势。据统计,全球超过 90% 的 AI 开发者和研究机构基于 CUDA 进行模型开发与训练,这种用户黏性使得其他芯片架构面临极高的迁移门槛。
具体而言,CUDA 生态的挑战体现在三个层面。首先,在工具链层面,CUDA 提供了从 Nsight 开发工具到 TensorCore 优化库的完整解决方案,新兴芯片企业难以在短期内构建同等成熟度的开发环境。其次,在算法库层面,CUDA 积累了数千个经过深度优化的计算内核,覆盖了主流的 AI 模型和科学计算场景,这种算法优势需要长期的技术沉淀。再者,在开发生态层面,CUDA 与 TensorFlow、PyTorch 等主流框架的深度集成,使得开发者形成了特定的编程习惯和优化思路,这种生态惯性构成了强大的转换壁垒。
5.3.2 国产软件生态的差距
国产 AI 算力芯片在软件生态方面与国际先进水平仍存在较大差距。国际上,英伟达 CUDA 平台已形成 “硬件 - 编译器 - 算法库 - 应用” 的完整闭环,PyTorch、TensorFlow 等主流 AI 框架与 CUDA 深度适配,开发者无需额外适配即可快速部署模型。而国产芯片由于架构差异,与这些框架的兼容性存在差距,导致原有基于 CUDA 开发的应用迁移至国产平台时,需进行代码调整、算子优化等工作,增加了开发者的时间与人力成本。
开发者生态的差距同样明显。英伟达 CUDA 生态拥有超过 500 万开发者和 550 个 SDK,而国产芯片平台的开发者数量大多在数十万级别,应用丰富度也远不及 CUDA 生态。这种差距导致国产芯片在市场推广中面临较大阻力,客户往往因为生态不完善而选择继续使用英伟达产品。
5.4 关键突破路径
5.4.1 技术创新:Chiplet 与存算一体
面对技术路线选择的挑战,Chiplet 技术为国产 AI 算力芯片提供了 “曲线突围” 的路径。Chiplet 通过将不同制程、不同功能的芯片模块集成在一个封装内,既规避了单一先进制程的技术瓶颈,又能实现性能与成本的平衡。国内企业应加大对 Chiplet 技术的研发投入,制定统一的 Chiplet 接口标准,推动产业链上下游协同发展。同时,存算一体技术也是未来的重要发展方向,存算一体将计算单元与存储单元融合,打破传统冯・诺依曼架构的 “内存墙” 瓶颈,大幅提升 AI 计算的能效比,特别适用于端侧 AI 推理场景。
5.4.2 供应链:本土化协同与多元化布局
为应对供应链安全挑战,国内企业应加强产业链本土化协同,构建自主可控的供应链体系。在晶圆制造环节,支持中芯国际、华虹等国内代工厂提升先进制程工艺水平,扩大成熟制程产能;在先进封装环节,支持长电科技、通富微电等企业突破 2.5D/3D 封装、CPO 等关键技术;在材料与设备环节,加大对光刻机、刻蚀机、高端光刻胶等核心产品的研发投入,逐步实现进口替代。同时,企业也应采取多元化的供应链布局策略,与多家供应商建立合作关系,降低对单一供应商的依赖。
5.4.3 生态:开源协作与垂直场景突破
软件生态建设是一项长期工程,国内企业应通过 “工具链优化 + 开源协作” 双路径破局。一方面,加大对编译器、算法库等基础软件的研发投入,提升与主流 AI 框架的兼容性,开发一键迁移工具,降低应用迁移成本;另一方面,积极参与开源社区建设,通过贡献核心模块、参与标准制定等方式,逐步扩大生态影响力。同时,国产芯片企业应聚焦垂直场景实现突破,选择计算机视觉、自动驾驶、工业制造等细分领域,集中资源打造全栈式解决方案,通过实际场景驱动生态成熟。政府与行业协会也应发挥引导作用,搭建产业协同平台,推动芯片企业、软件企业、应用企业深度合作,共同构建自主可控的 AI 算力生态。
第六章 产业发展趋势与未来展望
6.1 技术路线演进趋势
6.1.1 “GPU+ASIC” 异构计算成主流
从长期趋势看,单一技术路线无法满足所有 AI 应用场景的需求,“GPU+ASIC” 异构计算将成为未来主流方案。GPU 凭借其通用性与成熟的软件生态,将继续主导大模型训练与通用计算场景;ASIC 则凭借其高能效比与低成本优势,在推理场景与特定垂直领域实现快速渗透。异构计算通过将不同类型的芯片协同工作,充分发挥各自的优势,实现性能与成本的最佳平衡。例如,在一个 AI 系统中,用 GPU 进行模型训练与复杂任务处理,用 ASIC 进行大规模推理与特定算法加速,这种组合既能满足系统的灵活性需求,又能提升整体能效比。
6.1.2 ASIC 增速持续超越 GPU
随着大模型商业化应用的深度落地,推理需求将持续释放,ASIC 在能效比、成本上的优势将进一步放大,其整体增速超越 GPU 将成为行业确定性趋势。据预测,2025-2028 年全球 AIASIC 市场的年复合增长率将达到 35% 以上,显著高于 GPU 市场 25% 的年复合增长率。到 2028 年,ASIC 在全球 AI 算力芯片市场中的占比将超过 30%,在推理市场中的占比将超过 60%。云厂商自研 ASIC 的快速发展,将进一步加速这一趋势,未来 ASIC 不仅将在推理市场占据主导地位,还将在部分大模型训练场景中与 GPU 展开竞争。
6.1.3 先进封装与 3D 堆叠技术普及
先进封装与 3D 堆叠技术将成为提升 AI 算力芯片性能的关键手段。随着摩尔定律逐渐放缓,单纯依靠制程工艺提升芯片性能的难度越来越大,先进封装技术通过将多个芯片模块集成在一起,实现了 “以封装补制程” 的效果。未来,2.5D/3D 封装、Chiplet、CPO 等先进封装技术将得到广泛应用,芯片的集成度与性能将大幅提升。例如,台积电的 CoWoS 技术、华为的四晶片封装技术,都将推动 AI 算力芯片向更高密度、更高带宽、更低功耗的方向发展。
6.2 应用场景渗透趋势

6.2.1 端侧 AI 加速普及,大模型走向终端
端侧 AI 将成为未来 AI 发展的重要趋势,据 IDC 数据,2025 年全球端侧 AI 芯片市场规模预计突破 500 亿美元,2028 年将超过 1000 亿美元。端侧 AI 将人工智能的计算、推理等核心环节直接部署在终端设备上,实现了数据在本地的实时处理与智能决策,具有低延迟、高隐私、低带宽需求等优势。随着端侧 AI 芯片性能的不断提升与成本的持续下降,大模型将逐步走向终端,智能手机、智能家电、可穿戴设备、汽车等终端设备都将具备本地运行大模型的能力。例如,2025 年推出的旗舰智能手机已能够本地运行 7B 参数的大模型,实现实时语音翻译、图像生成、智能助手等功能。
6.2.2 高价值垂直场景定制化深化
AI 算力芯片的渗透将进一步聚焦工业制造、医疗影像、智能车载三大高价值场景,这些场景对算力的性能指标、环境适应性、安全合规有明确且严苛的要求,倒逼芯片厂商从 “通用设计” 转向 “场景定制化开发”。在工业制造场景,定制化 AI 芯片将聚焦 “高可靠 + 低延迟” 的产线级算力,应用于产品质检、预测性维护、工业机器人等领域;在医疗影像场景,定制化 AI 芯片将瞄准 “高精度 + 合规性” 的诊断级算力,应用于 CT、MRI 图像分析、辅助诊断等领域;在智能车载场景,定制化 AI 芯片将攻坚 “高安全 + 多模态” 的车规级算力,应用于自动驾驶、智能座舱等领域。这种场景定制化的发展趋势,将为国产 AI 算力芯片企业提供差异化竞争的机会。
6.3 产业生态发展趋势
6.3.1 产业链垂直整合加速
全球半导体供应链紧张与高端制程限制,正推动 AI 算力芯片产业从 “单点竞争” 转向 “垂直整合”。头部企业将通过并购、战略合作等方式,整合产业链上下游资源,构建从芯片设计、制造、封装到应用的全产业链能力。例如,华为通过与国内产业链伙伴深度绑定,构建起从设计、封装到材料、设备的全链路自主化体系;英伟达通过成立 ASIC 部门、与台积电深度合作,加强对产业链的控制力。产业链垂直整合将提升企业的综合竞争力,同时也将推动产业集中度进一步提升。
6.3.2 自主指令集与开源生态崛起
在 AI 算力芯片产业生态竞争中,底层技术标准与软件生态的自主可控已成为核心攻坚方向。RISC-V 开源架构凭借其开源、灵活的特性,成为国产芯片企业的核心选择。国内企业可基于 RISC-V 指令集扩展专属指令,适配 AI 算力场景的特定需求。未来,以 RISC-V 为核心的自主指令集产业协作网络将逐步形成,降低对海外指令集架构的依赖度。同时,开源生态将成为国产软件生态建设的重要突破口,通过开源协作的方式,汇聚全球开发者的力量,共同完善国产 AI 芯片的软件工具链与应用生态,逐步缩小与 CUDA 生态的差距。
6.3.3 算网融合推动算力普惠
算网融合将成为未来算力产业发展的重要方向,通过将算力资源与网络资源深度融合,实现算力的高效调度与按需分配。全国一体化算力网的建设,将推动算力资源跨区域优化配置,让不同地区、不同行业的用户都能便捷地获取所需的算力服务。AI 算力芯片作为算力的核心载体,将与算网融合技术深度结合,通过算力虚拟化、算力调度等技术,实现算力的池化与共享,推动算力从 “奢侈品” 变为 “普惠品”,为千行百业的数字化转型提供坚实的算力支撑。
结论
AI 算力芯片产业正处于高速发展与深刻变革的关键时期,生成式 AI 的爆发式增长为产业带来了前所未有的市场机遇,同时地缘政治博弈与技术竞争也使产业面临着严峻的挑战。全球市场呈现出 “GPU 主导、ASIC 快速崛起” 的竞争格局,英伟达凭借生态壁垒在 GPU 市场占据绝对主导地位,博通在 ASIC 市场领先,云厂商自研芯片正在成为重要的市场力量。中国 AI 算力芯片产业在政策支持与市场需求的双重驱动下,取得了显著的进展,华为昇腾、寒武纪等企业已推出具有竞争力的产品,国产替代进程加速。
然而,中国 AI 算力芯片产业仍面临着先进制程依赖、软件生态不完善、供应链安全等核心挑战。未来,产业应通过技术创新、供应链本土化、生态建设等路径,实现高质量发展。“GPU+ASIC” 异构计算将成为主流技术路线,端侧 AI 与垂直场景定制化将成为重要的应用趋势,产业链垂直整合与自主生态建设将成为产业发展的核心方向。随着技术的不断进步与产业生态的逐步完善,中国 AI 算力芯片产业有望在全球竞争中占据更加重要的地位,为数字经济的高质量发展提供坚实的算力支撑。


【书名】《芯片战争:世界最关键技术的争夺战》

