本文为节选,如需报告请联系客服或扫码获取更多报告

一、人工智能算力基础设施演进态势
人工智能算力基础设施,是基于人工智能专用算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。大模型加速技术迭代与工程创新步伐,对人工智能算力基础设施技术创新、布局优化、产业升级也提出了更高阶的要求。
(一)技术创新:三位一体智算设施升级
当前,我国人工智能算力基础设施正处于系统性升级与架构演进的关键时期,正加速向集约高效、低碳共生、高速泛在的融合形态纵深发展,全面步入以超大规模集群化、绿色低碳化与高速互联化为核心特征的新发展阶段。在顶层设计与政策引导协同驱动下,我国智算中心规模持续扩大、技术体系日益自主、能效水平不断提升、互联能力显著增强,逐步构建起支撑数字经济高质量发展和现代化产业体系建设的算力底座。
(二)布局优化:全国智算设施协调发展
政策引导推动智算中心高质量发展。我国高度重视智算中心建设,自2020年发改委将智能计算中心纳入新基建范畴以来,国家相关部门相继出台了《新型数据中心发展三年行动计划(2021-2023年)》、《算力基础设施高质量发展行动计划》等多份文件,提出统筹建设高性能智算中心,对于智算中心从鼓励建设转向深化布局,指引方向更加明确。2025年5月,国家数据局印发《数字中国建设2025年行动方案》,提出逐步实现各地区算力需求与国家枢纽节点算力资源高效供需匹配。2025年8月国务院印发《关于深入实施“人工智能+”行动的意见》,明确提出强化智能算力统筹,加快超大规模智算集群技术突破和工程落地,优化国家智算资源布局,完善全国一体化算力网,加强智能算力互联互通和供需匹配,创新智能算力基础设施运营模式,推动智能算力供给普惠易用、经济高效、绿色安全。
(三)产业升级:智算全产业链协同发展
智能算力产业发展提质增速。智算中心作为集算力、存力、运力于一体的新型基础设施,为越来越多的行业数字化转型注入新动能,产业规模持续跃升。据国际数据公司(IDC)《中国人工智能计算力发展评估报告》显示,2024年我国智能算力市场规模达190亿美元,同比增长86.9%。产业链各环节深度融合。上游核心硬件国产化突破加速,硬件产品性能实现跃升。据IDC数据显示,2024年我国加速芯片市场规模超过270万张,GPU卡占据70%的市场份额,我国本土AI芯片出货量已超过82万张,市场渗透率从2023年的15%提升至30%。中游算力设施建设规模化推进,成熟大模型的运营有望为我国带来持续的智能算力需求。下游算力应用向金融、医疗、教育、交通、工业、传媒娱乐等诸多产业加速渗透,从通用场景迈向专业领域的特定场景。据中商产业研究院数据显示,从当前应用占比情况来看,互联网占比53%,服务行业占比18%,政府占比9%,电信、工业制造、教育、金融等行业均占比4%。
二、人工智能算力基础设施赋能的重要走势
目前人工智能算力基础设施利用负载情况差异较大,尤其是国资平台主导的地方智算中心,赋能价值有待进一步提升。面向“十五五”,人工智能算力基础设施推进科学赋能,围绕需求场景、关键能力、落地生态,有三个重要的发展趋势。
(一)需求场景逐步明晰,促使智算资源优配
需求场景定位日益清晰,助推智算中心精准赋能。“十四五”以来,各地政府及相关主体积极探索、系统推进,人工智能算力基础设施建设正逐步由“建得好”向“用得好”转变。地方及央国企在推进智算中心建设过程中,正逐步厘清核心服务对象与投资建设主体的边界,深化对地方特色经济和央国企核心业务智能化转型痛点、真实算力需求类型及应用优先级的系统性洞察,推动智算建设与行业应用紧密结合,实现从“以建促用”到“以用带建”的科学路径转变。同时,政府、央国企、技术提供商、应用开发商等各方权责体系正在不断明晰,协同机制持续完善。这种系统性定位的日益清晰,正有力促进资源优化配置,避免重复建设与服务偏离,保障智算中心高效运行,显著提升投资回报水平,为数字经济发展注入强劲动能。
(二)关键能力逐步聚焦,提升智算服务水准
关键能力供给持续强化,提升智算中心服务效能。“十四五”期间,人工智能算力基础设施的服务向高层次、全栈化的支持体系快速演进。在基础支撑方面,智算中心正从基础算力资源供给,向全面支持异构计算资源智能管理、大规模集群高效调度、高带宽低延迟网络传输及高可用容灾体系等核心能力加快演进,为复杂业务场景提供更坚实支撑。在创新服务方面,对前沿AI框架、工具链、行业大模型开发与软硬件协同创新的支持力度不断加大,预训练模型库、行业知
三、人工智能算力基础设施需求场景
大模型计算需求场景主要包括训练、微调以及推理,模型参数规模与对算力的消耗成正比,参数规模越大,对智能算力的需求越大。不同体量的智算中心支撑不同的大模型计算场景。推进基础预训练大模型(千亿级以上参数)的训练,需要具备E级(EFlops)计算能力的高端万卡集群中心支撑。推进小模型(百亿级及以下参数)的训练、微调,或推进模型的推理,依托百P级(100PFlops)计算能力的中小型智算中心即可支撑。
(一)大模型预训练场景
万卡集群推进支撑基础大模型(千亿级以上参数)预训练。大模型训练阶段消耗的资源主要集中在预训练阶段,需要数千至上万块GPU并行运算、处理千亿级至万亿级Token数据、耗时数周至数月,占总算力消耗的90-99%。随着基础大模型参数量从千亿迈向万亿,大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模型的训练算力需求已达到十万亿兆量级,且仍以每年4.1倍的速度快速增长。据相关数据显示,OpenAI依托2.5万张英伟达A100GPU,处理了13万亿个token,用时100天才完成GPT-4模型预训练。Meta的LLaMA-3则动用约1.6万张英伟达H100GPU在54天内训练15万亿Token。由此可见,基础大模型预训练迫切需要高质量万卡智算集群支持。
(二)大模型微调场景
小体量智算中心可有效推进行业模型微调训练。大模型微调训练是连接预训练模型与下游应用场景的关键环节。90%的训练场景主要集中在L1/2大模型微调,即开展百亿级以下参数的行业模型训练与微调。L1/L2大模型微调是指基于预训练好的大型语言模型,通过调整模型参数以适应特定任务或数据集的过程,以使模型在特定任务上的性能得到显著提升。与基础大模型的训练相比,L1L2大模型微调对智算资源需求规模成指数级下降。地方推出的小体量(百P级)智算中心在百亿级以下参数的行业模型微调方面具有显著优势。一方面,地方可以通过快速整合当地计算资源满足模型微调需求;另一方面,在保证性能的同时,还能够显著降低计算成本和时间成本。整体来看,地方推出的小体量(百P级)智算中心,以其高效、灵活的计算资源,足以满足当前主流行业模型训练微调需求,实现对特定区域进行精准服务。
四、人工智能算力基础设施关键能力
整体来看,当前人工智能算力基础设施正从“重硬轻软”向“软硬协同、服务赋能”加速演进。在持续务实底层算力支撑能力的同时,各方日益重视提升创新服务与运营保障能力,不断拓展服务边界、增强发展韧性。面对算力市场对高阶技术服务的迅猛增长需求,智算中心正加快面向应用场景系统构建关键能力,有效提升应对市场波动和实现可持续发展的综合实力。
(一)基础支撑能力
基础支撑能力是智算中心基础技术能力的核心体现,为用户提供最核心的技术服务。训练场景主要关注集群算力有效性、集群稳定性、单体集群算力规模,以及主流计算框架的兼容性等。集群算力有效性主要指智算中心算力的利用率,决定了智算中心最终的有效算力供给能力。在实际应用中,算力有效性普遍不高,通过尽可能降低在多卡互联、多机互联中的算力损耗,能够提升集群算力有效性。计算集群稳定性是智算中心可稳定支撑模型训练长时间运行的能力,直接关系到AI大模型训练的连续性和效率,目前可以通过冗余设计、负载均衡、数据备份等方式来提升智算中心的稳定性。单体集群算力规模是可支撑模型训练的单体集群算力规模上限,主要是对大规模计算需求的支撑能力。此外,底层算力卡可兼容主流计算框架的能力、支持多种主流通用基础大模型的能力、支持多种主流通用数据集及行业数据集等能力等,也是智算中心需要关注的基础支撑能力指标。推理场景
(二)创新服务能力
创新服务能力是智算中心推进产业创新的核心体现,为用户提供高阶价值的技术服务。训练场景主要关注云服务高效性、模型迁移高效性以及数据治理多样性。云服务高效性,即可以通过云方式提供高效的算力服务的能力,也是智算中心场景应用支撑的重要指标,通过云来提供算力服务,是智算中心发展的重要趋势。模型迁移高效性指智算中心可高效完成用户模型的迁移适配,决定着模型是否能快速进入产业化阶段。数据治理多样性是指智算中心可以通过为用户提供多样的数据汇聚、共享、清洗等工具,帮助用户实现模型的落地应用。
推理场景主要关注智算资源池化调度能力、模型迁移部署高效性。池化调度能力通过支持异构算力的统筹调度来衡量,集中管理和调度能够提高资源利用效率、降低成本、支持异构算力管理,并提供弹性计算服务的能力,推进池化调度。
五、人工智能算力基础设施落地生态
各类智算中心推进需求场景的支撑,对场景所需关键能力供给主体提出强合作需求,如数据要素主体、算法模型主体、跨域算力主体、行业场景主体、区域产业主体等,只有深度推进智算中心与各类要素供给主体协同合作,才能助力智算中心赋能真正落地。


