推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

通用与智能算力研究报告

   日期:2026-06-02 22:17:18     来源:网络整理    作者:本站编辑    评论:0    
通用与智能算力研究报告

摘要

随着数字经济进入深水区,算力作为核心生产力正在经历深刻的结构性变革。传统以CPU 为核心的通用算力,正在逐步让位于以 GPU、NPU 等异构芯片为核心的智能算力。本报告系统梳理了通用算力与智能算力的核心差异,深入剖析了智能算力的底层工作原理,包括异构计算架构、大规模并行计算机制以及软件生态体系。基于中国信息通信研究院等权威机构的最新数据,报告展示了我国智能算力的爆发式增长态势:2025 年我国智能算力规模预计突破 1037 EFLOPS,在总算力中的占比超过 80%,成为驱动大模型、生成式 AI 以及产业数字化的核心引擎。报告同时梳理了智能算力在大模型训练、科学计算、数字内容创作、产业赋能等领域的典型应用,并探讨了当前产业面临的异构协同、供需错配等挑战,展望了算力互联网、云边端协同等未来发展趋势,为理解 AI 时代的算力变革提供了全面的参考框架。

一、算力体系的二元演进:从通用到智能的分野

1.1 算力的三元分类体系

在当前的数字基础设施体系中,算力根据其架构、用途和性能特征,被业界划分为三大核心类型:通用算力、智能算力与超算算力。这三者共同构成了支撑数字经济运行的算力底座,但在技术路线和应用场景上存在显著的分工。

超算算力:面向尖端科学研究的极致高性能算力,主要用于气象预报、核能仿真、生物医药大分子模拟等对双精度浮点运算要求极高的科研场景,是国家科技竞争力的战略重器。

通用算力:以CPU 为核心的传统计算能力,支撑了过去三十年互联网与信息化的发展,是数字经济的基础底座。

智能算力:以GPU、NPU、ASIC 等异构加速芯片为核心,专门针对人工智能训练与推理任务优化的新型算力,正在成为当前算力增长的绝对主力。

1.2 通用算力:传统信息化的基础底座

通用算力,本质上是由通用服务器提供的、以x86 架构 CPU 为核心的计算能力。它的设计理念是 “全能通用”,擅长处理复杂的逻辑控制、串行任务和不规则的数据结构。

核心特征

硬件架构:以少量高性能CPU 核心为主,通常单服务器配备 2 路或 4 路 Xeon / 鲲鹏 CPU,核心数量通常在几十核级别。

算力特性:侧重低延迟的串行运算,并行处理能力较弱,单精度浮点运算(FP32)是其主要算力指标。

部署特征:单机功耗低,通常单机在300-800W,适配传统 IDC 的风冷散热,单机柜功率仅 3-8kW。

典型应用场景通用算力支撑了绝大多数传统互联网与企业信息化业务,包括网站托管、企业ERP 系统、数据库存储、云主机、文件存储等。在这些场景中,任务的逻辑复杂但数据量相对可控,CPU 的通用处理能力能够以最高的效率完成任务。

1.3 智能算力:AI 时代的新质生产力

随着大模型与生成式AI 的爆发,传统的通用算力已经无法满足指数级增长的计算需求,智能算力应运而生。智能算力是指由异构加速芯片提供的、针对大规模并行矩阵运算优化的计算能力,专门用于支撑人工智能模型的训练与推理。

与通用算力的缓慢增长不同,智能算力呈现出爆发式的增长态势。根据中国信息通信研究院与IDC 的最新数据,2023 年到 2025 年,通用算力从 61.3 EFLOPS 增长到 85.8 EFLOPS,年复合增长率仅为 18.8%;而智能算力则从 417.1 EFLOPS 猛增到 1037.3 EFLOPS,年复合增长率高达 46.2%,是通用算力增速的 2.5 倍。

这种增长直接重塑了我国的算力结构:

:中国算力结构占比变化预测(数据来源:中国信通院)

2023 年,智能算力在总算力中的占比为 73.2%,而到 2025 年,这一比例将提升至 88.4%,通用算力的占比则从 22.5% 下降至 8.9%。这标志着我国已经正式进入了以智能算力为主导的算力新时代。

二、智能算力的底层架构与工作原理

智能算力之所以能够爆发式增长,核心在于其底层的异构计算架构与大规模并行处理机制,这从根本上区别于传统的通用计算。

2.1 异构计算:CPU+GPU 的协同范式

智能算力的核心是异构计算,即通过两种不同架构的处理器协同工作,扬长避短,实现计算效率的最大化。

图:CPU 与 GPU 核心架构与并行能力对比

2.1.1 CPU 与 GPU 的架构差异

CPU(中央处理器):作为系统的“总指挥”,CPU 只有少量的高性能大核心(通常 4-32 核),每个核心都拥有复杂的逻辑控制单元和大容量 Cache,擅长处理复杂的分支判断和串行任务。它就像几个经验丰富的老工程师,能够快速处理复杂的工序,但一次只能处理少数几个任务。

GPU(图形处理器):作为计算的“劳工大军”,GPU 拥有成千上万个简单的小核心(例如 NVIDIA H100 单卡就有超过 1.4 万个 CUDA 核心)。这些核心结构简单,专门针对并行的浮点运算优化。它就像几万个流水线工人,虽然每个工人只会做简单的重复计算,但加在一起,就能同时处理海量的简单任务。

2.1.2 异构计算的工作流程

在异构计算架构中,CPU 和 GPU 分工明确:

(1)任务分发CPU 负责处理整个系统的逻辑控制、任务调度和数据预处理,将复杂的控制流处理完毕。

(2)并行计算CPU 将大规模的矩阵运算任务(例如深度学习中的张量计算)发送给 GPU。

(3)批量处理GPU 的上千个核心同时开工,对这批数据进行同步的并行计算,完成海量的乘法和加法操作。

(4)结果汇总:计算完成后,GPU 将结果返回给 CPU,由 CPU 进行后续的逻辑处理。

这种分工完美适配了深度学习的需求:大模型的训练和推理,本质上就是海量的矩阵乘法运算,这些运算规则简单、数据量大,正好是GPU 的强项。而 CPU 则负责处理剩下的复杂逻辑,两者协同,将计算效率提升了上百倍。

2.2 大规模并行计算:大模型训练的核心机制

对于千亿参数的大模型而言,单张GPU 的能力依然不够。因此,智能算力必须通过大规模并行计算,将成千上万张GPU 组织起来,协同完成同一个任务。

正如我们之前探讨的,大模型训练面临两大瓶颈:一是模型参数太大,单卡显存装不下;二是训练数据(万亿级Token)太多,单卡算不完。并行计算就是为了解决这两个问题而生的。

2.2.1 数据并行:解决海量 Token 的计算效率

数据并行是最基础的并行策略,它的核心思路是:模型不动,数据拆分

(1)每一张GPU 都完整复制了一份整个模型的参数。

(2)将一批训练数据(Batch)切成 N 份,N 张 GPU 各自拿一份数据,独立进行前向计算和反向传播,算出自己那份数据的梯度。

(3)最后,所有GPU 把各自的梯度汇总起来,统一更新模型的参数。

这种方式非常适合处理海量的Token 数据,能够线性地提升训练的吞吐量,让万亿 Token 的数据集能够在数月甚至数周内训练完成,而不是花上几年。

2.2.2 模型并行:解决超大参数的存储瓶颈

当模型大到单卡显存根本装不下的时候,就需要模型并行,核心思路是:数据不动,模型拆分

张量并行(横向切分):把单个神经网络层拆开到多张GPU。例如,一个注意力层的权重矩阵,切成左右两半,分别放在两张 GPU 上,计算的时候各自算一半,最后合并结果。这样就解决了单层计算量过大、显存不够的问题。

流水线并行(纵向切分):把整个模型按层切成几段。GPU1 负责前几层,GPU2 负责中间层,GPU3 负责后几层。数据像流水线一样,依次流过这些 GPU,完成整个模型的计算。

2.2.3 3D 并行:混合并行的工业实践

在真实的千亿大模型训练中,业界通常会将数据并行、张量并行、流水线并行结合起来,形成3D 并行(混合并行)。例如,训练一个GPT-3 175B 参数的模型,通常会使用几百张 A100 GPU:

(1)跨服务器之间做数据并行,处理不同的数据分片。

(2)服务器内部的8 张卡之间,做张量并行和流水线并行,拆分模型的层和参数。

通过这种方式,上万张GPU 可以协同工作,将一个原本需要几百年才能跑完的训练任务,压缩到几个月完成。

2.2.4 Token 与算力的关联

在这个过程中,Token 作为大模型处理的最小单元,与智能算力的吞吐能力直接挂钩。

(1)每处理1 个输入 Token,都需要所有的模型参数做一次矩阵运算。

(2)每生成1 个输出 Token,GPU 都要做一轮完整的前向计算。

(3)因此,智算集群的性能,通常用Tokens/sec(每秒生成的Token 数量)来衡量。一个万卡集群,每秒可以处理数万个 Token,这正是智能算力的核心价值所在。

2.3 CUDA 生态:异构计算的软件底座

仅有硬件的异构是不够的,要让开发者能够方便地使用GPU 的并行能力,还需要软件生态的支持,这就是 NVIDIA CUDA(Compute Unified Device Architecture)的价值。

CUDA 是一套并行编程框架,它屏蔽了 GPU 硬件的复杂性,让开发者可以用类似 C 语言的语法,直接编写并行计算程序。

(1)它提供了cuDNN、cuBLAS 等加速库,将深度学习的常用算子都做了硬件级的优化。

(2)它统一了异构计算的编程模型,让CPU 和 GPU 的协同变得简单。

(3)正是因为CUDA 生态的成熟,才使得 GPU 成为了智能算力的绝对主力,支撑了过去十年深度学习的爆发。

三、智能算力的产业生态与发展现状

智能算力的爆发,带动了整个产业链的重构,从上游的芯片,到中游的智算中心,再到下游的算力服务,形成了一个全新的产业生态。

3.1 上游:AI 芯片的多元化爆发

智能算力的核心载体是AI 芯片,随着需求的爆发,AI 芯片市场呈现出百花齐放的态势。

GPU:依然是市场的绝对主力,占据了70% 以上的市场份额。NVIDIA 的 A800、H100、B200 等产品,凭借强大的算力和成熟的 CUDA 生态,主导了高端市场。AMD 的 MI300 系列也在快速追赶。

国产AI 芯片:国内厂商正在快速突破,形成了“一超多强” 的格局。华为昇腾、百度昆仑芯、壁仞科技、沐曦、海光 DCU 等国产芯片,正在逐步填补市场空白,并且已经能够支撑千卡甚至万卡级的集群训练。

ASIC/NPU:寒武纪、地平线等专用AI 芯片,针对特定场景做了硬件定制,在能效比上具备优势,正在推理和边缘场景快速落地。

3.2 中游:智算中心的规模化建设

承载智能算力的基础设施,是智算中心,它与传统的IDC 有着本质的区别:

对比维度

传统IDC

智算中心(AIDC)

核心芯片

CPU 为主

GPU/NPU 为主,CPU 为辅

单机柜功率

3~8kW

20~100kW+

散热方式

风冷为主

液冷为主

网络

普通以太网

RDMA/IB 高速互联

PUE

1.3~1.6

1.1~1.3

截至2025 年,我国智算中心的建设已经进入快车道,各地纷纷部署万卡级的智算集群,为大模型训练提供底座。这些智算中心不仅提供硬件,还通过资源池化技术,将异构的算力资源整合起来,形成统一的资源池。

3.3 下游:智能算力服务的普惠化

随着算力资源的丰富,下游的算力服务也在快速发展,从过去的“卖机柜” 转向 “卖服务”。

算力租赁:企业无需自建昂贵的GPU 集群,只需按需租赁算力,按 GPU 小时或者 Token 数量付费,极大降低了 AI 创业的门槛。

训推一体服务:云厂商提供从模型训练到推理部署的全流程服务,企业只需关注业务逻辑,无需关心底层的硬件和并行策略。

算力互联网:通过统一的调度平台,将全国分散的算力资源整合起来,实现算力的跨域流动,让算力像水电一样,随用随取。

四、智能算力的典型应用场景与实践

智能算力已经不再是实验室里的技术,它正在千行百业落地,释放出巨大的生产力。

4.1 大模型与生成式 AI:最核心的需求场景

这是智能算力最直接的应用。

大模型训练OpenAI 训练 GPT-4,动用了数万张 GPU 的超大规模集群;国内的文心一言、通义千问等大模型,也都依托万卡级的智算集群,将训练周期从数年压缩到数月。

高并发推理ChatGPT 上线后,亿级用户的并发访问,每秒需要生成数百万个 Token,这背后正是智能算力的弹性扩容支撑。随着推理需求的爆发,预计到 2026 年,推理算力将占据智能算力的 70% 以上。

4.2 AI for Science:科研的新引擎

智能算力正在重塑科学研究的范式。

生物医药DeepMind 的 AlphaFold2,利用智能算力预测了超过 2 亿个蛋白质的结构,将原本需要数年的实验工作压缩到数天,极大加速了新药研发的进程。

气象预报:国家气象局利用智算算力,将气象数值预报的精度提升到了公里级,能够更准确地预测极端天气。

工业仿真:在汽车、航空航天领域,利用智能算力进行流体力学、电磁仿真,能够将仿真速度提升上百倍,缩短产品的研发周期。

4.3 数字内容创作:释放创意生产力

智能算力正在赋能数字内容产业。

影视特效渲染:电影《哪吒之魔童闹海》的1900 多个特效镜头,正是依托智算中心的算力,完成了海量的光线追踪渲染,将原本需要数月的渲染周期压缩到了数周。

AIGC 创作:文生图、文生视频等应用,每生成一张高清图片或者一秒钟的视频,都需要海量的并行计算。正是智能算力的普及,才让普通用户也能免费使用这些创意工具。

工业设计:浙江台州的模塑企业,利用智算中心的算力训练了日化设计大模型,原本设计师3 天才能出一套方案,现在 AI 几分钟就能出多套方案,效率提升了上百倍。

4.4 产业数字化:赋能千行百业

在传统产业,智能算力也在加速落地。

自动驾驶:小鹏汽车依托阿里云的智算算力,将自动驾驶模型的训练速度提升了170 倍,研发周期缩短了 20%,支撑了端到端的自动驾驶大模型的迭代。

海洋工程:厦门的企业发布了全国首个船舶与海洋工程大模型“文鳐”,依托智算中心的算力,实现了船舶设计、运营的全流程智能化。

智能制造:在新能源电池工厂,边缘智算节点实时处理极片的图像,实现了99.9% 的缺陷检出率,毫秒级的响应速度,支撑了产线的高速运转。

五、挑战与未来趋势

尽管智能算力发展迅猛,但产业依然面临着诸多挑战。

5.1 当前面临的核心挑战

(1)异构协同难题:当前AI 芯片种类繁多,架构各异,软件生态割裂。不同厂商的芯片之间难以协同训练,导致算力资源碎片化,无法形成合力。

(2)算力供需错配:东部地区需求旺盛但资源紧张,西部地区资源丰富但需求不足。同时,训练需求的集中化和推理需求的碎片化,导致算力资源的利用率有待提升。

(3)能耗与成本挑战:智算中心的功耗极高,一个万卡集群的年耗电量超过1 亿度。如何提升能效,实现绿色算力,是产业面临的长期挑战。

5.2 未来发展趋势

(1)算力互联网的构建:通过统一的标识、调度和互联技术,打破地域和厂商的壁垒,将全国的异构算力整合起来,形成一张统一的算力网络,实现算力的全域流动和按需调度。

(2)云边端协同的算力架构:未来的算力将不再集中在中心节点,而是形成“中心大模型训练 + 边缘推理 + 端侧小模型” 的协同架构。中心负责通用能力的训练,边缘负责低时延的实时处理,端侧负责隐私保护,三者协同,最大化算力效率。

(3)绿色智算与技术创新:液冷散热、绿电耦合、存算一体、光计算等新技术将不断突破,推动智算中心的PUE 持续降低,实现算力的可持续发展。

(4)普惠化的算力服务:算力服务将从“卖资源”转向“卖结果”,用户无需关心底层的 GPU 和集群,只需提交任务,就能按效果付费,让智能算力真正成为像水电一样的社会基础设施。

六、结论

从通用算力到智能算力的演进,是数字经济发展的必然趋势。智能算力凭借其异构计算架构和大规模并行处理能力,完美适配了大模型时代的算力需求,正在成为驱动经济增长的新质生产力。

随着技术的不断成熟和产业生态的完善,智能算力将进一步渗透到千行百业,不仅支撑了生成式AI 的爆发,更在科研、制造、医疗等领域释放出巨大的价值。未来,随着算力互联网的构建,智能算力将真正实现普惠化,成为支撑整个数字经济的核心底座,推动人类社会进入智能时代的新阶段。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON