
紫金山实验室&江苏省未来网络集团: 《2025DeepSeek行业大模型算力网加速应用生态白皮书》
(完整版.pdf ) 以下仅展示部分内容 下载方式见文末
一、行业现状与核心挑战
(一)DeepSeek 的爆发式增长与产业价值
2025 年春节前后,DeepSeek 凭借 “充分开源、深度思考、人文关怀” 的三重优势实现现象级爆火,完成从 C 端出圈到 B 端落地的快速跨越。与此前开源大模型相比,DeepSeek 不仅血统纯正(完全开源),且具备顶尖智能水平(深度思考能力),更兼顾人文关怀,彻底打破了企业私有化部署大模型的高成本壁垒,将模型成本直降为 0,推动全行业掀起应用热潮。
在 B 端场景,DeepSeek 的核心价值在于与企业生产经营数据结合,从 “通用大模型” 升级为 “企业大模型”,进而向 “行业大模型” 演进。目前企业应用主要分为推理和微调两种方式:推理模式通过 “大模型 + 知识库” 实现类似 “查字典” 的高效响应,满足日常办公管理需求;微调模式通过 “大模型 * 数据集” 实现 “举一反三” 的知识涌现,但其资源消耗较高。当前企业落地已从对 671B 模型的盲目追风,转向 32B/70B 模型的理性部署,智能体逐步融入企业办公与管理流程,但 DeepSeek-V3/R1 暂缺多模态能力的短板,使其在部分生产场景难以充分发挥作用,亟待 R2 版本补齐。
(二)行业大模型的演进路径与落地梗阻
行业大模型的演进需经历 “通用大模型→企业大模型→行业大模型” 的阶梯式发展。企业大模型已进入规模化起步阶段,而行业大模型仍以研究探索为主,潜在路径包括三种:一是汇集行业内多家企业数据直接训练,可行性受数据汇集难度限制;二是整合多个企业大模型,通过统一入口实现问题分流与答案整合,技术路线仍在摸索;三是依托企业大模型群体协作相互增智,是未来重点探索方向。
尽管 DeepSeek 解决了模型成本问题,但行业大模型落地仍面临两大核心梗阻:其一,数据流通不畅,企业核心业务数据通过互联网传输存在安全风险,且传输效率低下;其二,算力使用不便,国家公共算力资源未被充分知晓和利用,企业面临 “想用不会用、想用用不好” 的困境。这两大问题直接制约了 DeepSeek 在千行百业的规模化应用。
(三)现有部署模式的局限与算力网解决方案
当前企业部署 DeepSeek 主要采用云部署和一体机两种模式,且存在明显对立:云部署基于互联网提供轻量化服务,但面临 “数据传不出、网络运不动、算力信不过” 的约束,企业不敢、不愿将敏感数据上传至公有云;一体机基于局域网实现本地化部署,虽解决了数据安全问题,但存在 “建设成本高、服务性能僵、模型更新慢” 的新挑战,采购与运维开销不菲,且资源规模和性能固定,难以适配业务波动与模型迭代需求。
算力网成为破解上述矛盾的理想路径。根据《全国一体化算力网监测调度平台建设指南》,算力网通过专用网络实现入企、入园、入校、入户,提供 “最优匹配、按需启停、精准计量、效用付费” 的算力供给,让用户获得即开即用的用算体验。通过在一体机等载体上加装 “算力阀” 和 “算力表”,可实现本地资源优先使用、云端资源动态补充的弹性调度,真正达成 “用水用电一样用算” 的目标,兼浮云部署与一体机的双重优势。
二、算力网加速解决方案:架构、流程与核心能力
(一)方案定位与总体架构
1. 方案核心定位
该解决方案基于国家 “东数西算” 安全总线的广域确定性网络传输能力,连接用户本地与全国八大算力枢纽节点资源,突破网络安全、可靠与速率瓶颈。核心目标是构建便捷、高效、可信的全网算力分销渠道,集成异属、异构、异地算力资源,支持软件服务、硬件设备、一体机集成等多种接入方式,为用户提供 PaaS 层数据、算力、模型的一体化任务式调度服务。
方案通过 “前端轻量化交互 + 后端分布式计算” 的新型算力网入口形态,让用户聚焦业务目标而非技术细节,一键获取最优性价比云端资源,相比纯本地算力方式可节省 50% 推理成本,同时盘活云端国产算力资源,助力算力供应方拓展分销渠道、扩大用户规模。
2. 功能架构
方案总体功能架构包含五大核心模块,协同实现全流程算力网调度与加速:
用户管理:负责账户全生命周期管理、多因素身份认证与 RBAC 细粒度权限控制,保障访问安全与权限合规。 算力阀:承担云端任务操作管理与资源适配,包括知识库对接、业务镜像纳管、模型全生命周期管理、数据集管理、流量与组网管理等核心功能。 算力表:提供账单查询、在线结算等运营计费服务,任务与资源状态监控功能,以及基于微调效果、推理时延的访问效果评级能力。 运维管理:实现全栈自动化运维,涵盖基础设施采控、平台版本配置、监控告警、智能运维与可视化大屏展示,提升业务连续性与效率。 安全管理:构建可信数据空间,基于分布式架构与区块链智能合约,运用数据主权保障与隐私增强技术,实现知识库、数据集、模型等要素的安全可信流通。
3. 组网与部署方案
组网架构支持用户企业内网与云端算力内网通过隧道、光纤 / 专线接入广域网络,与算力网调度平台互通,实现边云一体调度。部署形态灵活多元,包括纯软件(一键安装于容器或服务器)、轻量硬件(算力网接入盒,支持 SDWAN 互联网接入)、标准硬件(网关接入机,支持光纤专线与高速读写)、硬件集成(推理 / 训推一体机,预装模型并支持拉远微调)四种模式,适配不同用户的 IT 基础与业务需求。
推理与微调应用层均提供四种典型部署方案,涵盖 “本地 + 云端” 混合部署、纯云端部署、全本地部署等多种场景,可根据用户本地算力资源状况、业务敏感程度灵活选择,实现资源利用与安全合规的平衡。
(二)核心业务流程:推理与微调加速
1. 推理加速流程
推理加速分为调度与服务两个阶段,采用 “算随网动” 模式,实现资源弹性适配:
调度阶段:管理员发起云边协同推理请求,算力网调度平台基于 “模型 - 场景 - 算力 - 资源” 四维图谱,自动补齐算力规格要求,完成算力、网络与存储资源协同调度,以 Serverless 方式绑定资源并开通广域传输隧道,同步模型文件与镜像至远端算力节点,最终向负载均衡系统同步调度结果。 服务阶段:终端用户发起高并发推理请求,负载均衡系统基于全局路由信息分流流量至本地或远端算力节点,若本地资源不足则触发弹性扩缩容请求,调度平台动态调整云端资源,确保推理服务低时延、高稳定。
2. 微调加速流程
微调加速面向管理员用户,采用 “网随算动” 模式,解决本地算力不足问题:管理员发起微调调度与部署请求,携带模型、费用、时限、数据集等关键信息,调度平台开通广域传输隧道,准备微调所需源模型、镜像与数据集并传输至远端算力节点,远端节点完成模型微调后,将结果回传至用户数据中心,全程实现微调任务的异地高效执行,缩短排队时间并拓展业务范围。
(三)四大关键能力:极简、柔性、安全、可视
1. 极简接入:降低使用门槛
构建 “模型 - 场景 - 算力 - 资源” 四维业务需求图谱,将特定场景关键参数映射为算力需求向量,实现异构算力统一对齐与自动调度,免除用户手动配置烦恼。支持无感交互体验,用户以本地大模型服务为入口即可接入,平台可自动触发调度任务,也支持高级用户手动精细调整资源配置;提供省心(自动择优)与放心(用户确认)两种启动模式,适配不同风险偏好与操作习惯。
2. 柔性访问:适配业务波动
通过 “标识感知 - 动态决策 - 弹性闭环” 全域智能负载均衡技术,实现业务流量云边跨域动态分发,优先保障本地业务,不足时分流至云端。具备弹性伸缩能力,根据业务并发量与算力水位自动扩容或释放资源,推理与微调业务采用差异化扩缩容策略,确保资源高效利用。基于五维映射矩阵实现镜像文件多维动态适配与全域统一纳管,解决跨域协同镜像不兼容问题,保障业务连续性。
3. 安全流转:保障数据可信
构建算力网调度与加速可信数据空间,采用分布式存储避免集中风险,通过数字智能合约规范数据流通行为,明确参与方权利义务。集成数据沙箱、隐私保护计算、多租户隔离等控制技术,对数据使用全流程进行管控与审计;采用联盟链存证技术,将数据哈希与操作日志上链,确保数据完整性与操作不可篡改,自动生成合规审计报告。
4. 可观可感:实现透明管控
通过动态拓扑仪表盘实时映射算力资源与网络状态,以热力图、水位图等形式展示资源饱和度,监控任务并发量、分布与实时状态。针对推理任务分析边缘预处理、云端聚合、结果回传时延;针对微调任务跟踪数据上传、模型回传、梯度同步等关键指标。提供智能可视化看板,评估微调精度、推理 TTFT(首 Token 延迟)、TPOT(每 Token 输出时间)等核心指标,实现访问效果评级可感。
三、算力网资源量化测评:性能基线与调度依据
(一)测评目标与环境
本次测评旨在为算力网调度提供数据支撑,让用户无需关注算力归属、架构与位置,仅聚焦自身业务需求。测评基于 vLLM 框架,覆盖 DeepSeek-R1-Distill-Qwen-32B 与 DeepSeek-R1-Distill-Llama-70B 两种模型,针对 H20、L40、V100 三款英伟达 GPU 及 5 款主流国产智算芯片,在不同卡数与并发设定下,对吞吐量、延迟、QPS、Token 生成速率等指标展开量化测评。测评输入输出长度均为 1024,最大上下文 5000,精度根据芯片类型适配 bfloat16 或 float16。
(二)吞吐性能测评结果
各类算力卡的吞吐性能在不同测试条件下表现稳定,总体性能排序为 H20>D 卡>E 卡>C 卡>V100>L40>A 卡>B 卡(注:结果基于当前测评版本,受 vLLM 版本差异影响)。值得注意的是,L40 性能表现不及预期,运行 32B 模型时效率低于 V100,推测与缺乏 NVLink 卡间互联、无专用 Tensor Core 硬件加速相关。
随着并发数增加,各卡型输出 Token 吞吐量呈现 “快速增长→趋于平稳” 的走势,每一并发平均吞吐则 “快速下降→趋于平稳”,并发拐点随卡数增加而上升、随模型增大而下降。例如 E 卡在 2 卡运行 32B 模型时并发拐点为 64,8 卡运行 32B 模型时拐点超 256,8 卡运行 70B 模型时拐点为 128。在 SLA 要求每一并发平均吞吐不低于 15token/s 的场景下,H20 8 卡运行 32B 模型最大并发可达 250,运行 70B 模型最大并发 140,展现出强劲的高并发支撑能力。
(三)时延性能测评结果
时延测评聚焦 TTFT(首 Token 延迟)与 TPOT(每 Token 输出时间)两大核心指标。在低并发场景下,平均 TTFT 随并发数缓慢增长;当并发数超过算力承载能力后,TTFT 呈指数级激增,性能急剧下降。非首次推理因 Prefix 缓存加持,时延表现优于首次推理,但高并发下缓存命中率降低,两者性能差异逐渐缩小并趋于统一。
从满足 SLA 要求的资源筛选结果来看,H20-8 卡、C-2 卡 / 4 卡 / 8 卡、D-8 卡同时满足 TTFT 与 TPOT 要求,成为优选算力资源;除 A-4 卡、B-4 卡 / 8 卡外,其余卡型均能满足 TPOT 要求,为算力网调度提供了丰富的备选资源池。
四、典型场景与应用案例:全场景落地实践
(一)入企场景:交通规划与医疗问答
苏交科集团基于 DeepSeek-R1-Distill-Llama-671B 模型与新华三一体机,开展甘肃天水张家川公路规划图文报告生成服务。本地算力有限导致高并发下性能骤降:低并发时生成报告耗时 42s,60 并发增至 72s,100 并发超 300s。接入算力网加速平台后,通过云边协同负载均衡,60 并发耗时缩短至 45s,100 并发降至 75s,推理效率显著提升。
苏州某医疗研究所基于 DeepSeek-R1-Distill-Llama-32B 构建私有化医疗智能推理引擎,提供病理分析、用药推荐等高阶服务。本地 L20 算力受限导致高并发下时延激增,引入算力网调度后,调用云端寒武纪 MLU370 算力,通过全局算力池化与近源计算卸载,端到端推理延迟降低 40%,并发吞吐量提升 3 倍,大模型部署成本节省 50% 以上。
(二)入园场景:医疗诊断微调
南京笑领科技的口腔医疗 SaaS 平台采用 DeepSeek-R1-Distill-Llama-70B 模型提供推理问答服务,但通用模型结合专业知识库仍无法满足医疗行业专业需求,且本地智铠 100 算力不支持微调升级。依托算力网调度天数智芯宿州机房天垓 150 算力开展拉远微调,使用 15GB 训练集经过 140 次迭代后,模型推理结果与目标答案平均相似度从 8% 提升至 75%。通过 11Gbps 确定性网络,数据集传输仅需 10s,微调总时长 5 小时 40 分钟,算力效能超 99.998%,实现成本与效率的双重优化。
(三)入校场景:基因检测编辑
贵州师范大学聚焦茶树多酚氧化酶(PPO)基因研究,该酶是红茶品质形成的关键酶,对茶叶品质改良与种质资源保护意义重大。基因研究需处理百至上千样本的多组学数据,单次分析数据量达 10Tb,本地算力不足成为瓶颈。接入算力网后,通过 DeepSeek-R1-Distill-Qwen-32B 模型推理进行基因测序、编辑与序列比对,精准识别普安哈马四球茶、团龙贡茶古茶树等保护对象,选育出鸟王种、鱼钩茶等优良杂交种,有效提升茶叶加工品质。
(四)政务场景:政务推理问答
江宁区数据局负责区域数字政府建设与政务服务优化,民生服务面临特殊节点访问量激增的挑战,本地算力不足导致用户等待时间延长。借助算力网调度系统与政务通智能体,结合浪潮大模型一体机与远端算力资源,构建 “本地核心枢纽 + 云端弹性扩容” 架构:本地部署模型快速响应日常需求,业务量激增时灵活调用云端算力,保障高并发场景下政务问答服务的及时准确,降低整体运营成本。
五、生态价值与发展意义
该算力网加速解决方案通过 “算力阀 + 算力表” 的创新形态,成功破解了 DeepSeek 行业大模型落地的 “数据流通” 与 “算力使用” 两大核心难题,实现了云部署与一体机优势的有机融合。方案不仅为企业提供了极简接入、柔性访问、安全流转、可观可感的全流程用算体验,更盘活了全国一体化算力资源,推动国产算力的充分消纳,为国家 “东数西算” 工程与全国一体化算力网建设提供了宝贵的未来网络实践经验。
未来,随着 DeepSeek 多模态能力的补齐与算力网调度技术的持续优化,有望赋能每个企业拥有专属大模型、每个行业发展领域大模型,走出一条具有中国特色的 AI 发展与应用路线,加速 AI 技术向千行百业深度渗透,为数字经济高质量发展注入强劲动力。







☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
篇幅有限,部分展示 加入会员,任意下载 资料下载方式
Download method of report materials
关注公众号后回复:DS260116 即可领取完整版资料 
荐: 【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕! 【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道! 【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

如需获取更多报告
扫码加入 “人工智能产业链联盟” 知识星球,任意下载相关报告! 报告部分截图

声明 来源:紫金山实验室&江苏省未来网络集团,人工智能产业链union(ID:aiyuexingqiu)推荐阅读,不代表人工智能产业链union立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理! 编辑:Zero

文末福利
1.赠送800G人工智能资源。
获取方式:关注本公众号,回复“人工智能”。
2.「超级公开课NVIDIA专场」免费下载
获取方式:关注本公众号,回复“公开课”。
3.免费微信交流群:
人工智能行业研究报告分享群、
人工智能知识分享群、
智能机器人交流论坛、
人工智能厂家交流群、
AI产业链服务交流群、
STEAM创客教育交流群、
人工智能技术论坛、
人工智能未来发展论坛、
AI企业家交流俱乐部
雄安企业家交流俱乐部
细分领域交流群:
【智能家居系统论坛】【智慧城市系统论坛】【智能医疗养老论坛】【自动驾驶产业论坛】【智慧金融交流论坛】【智慧农业交流论坛】【无人飞行器产业论坛】【人工智能大数据论坛】【人工智能※区块链论坛】【人工智能&物联网论坛】【青少年教育机器人论坛】【人工智能智能制造论坛】【AI/AR/VR/MR畅享畅聊】【机械自动化交流论坛】【工业互联网交流论坛】
入群方式:关注本公众号,回复“入群”

戳“阅读原文”下载报告。




