推广 热搜： 采购方式甲带滤芯带式称重给煤机气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

DeepSeek 的技术演进:从成本优化到系统能力——大模型竞争的下半场,正从＂拼算力＂＂拼可持续性＂

日期：2026-01-20 15:58:34 来源：网络整理作者：本站编辑评论：0

引言：大模型的真正挑战不是"能不能做到"，而是"能不能用得起"

过去两年，大模型行业经历了一场"军备竞赛"：参数规模从千亿级跃升到万亿级，训练集群从数千张GPU扩展到数万张。但当技术的边际效益递减，行业开始意识到一个更现实的问题：

让模型变强的代价，是三座大山，指数级上升的训练成本、推理成本和部署成本。

DeepSeek 作为一家相对年轻的AI公司，选择了一条差异化路线：不追求"最大"，而是追求"最经济"——在可承受的成本下，把模型能力推到接近顶级闭源模型的水平。

本文基于 DeepSeek 团队在 2024-2025 年发表的一系列技术报告和论文，尝试回答三个问题：

DeepSeek 的技术路线经历了怎样的演进？

DeepSeek最新的几篇论文在解决什么关键问题？

从知识产权与合规角度，开源大模型的应用方应该关注什么？

一、技术演进的主线：从"混合专家"到"系统能力"

（一）起点：用MoE架构实现"强能力+低成本"

DeepSeek-V2（2024年5月）是这条路线的起点。其核心创新是混合专家模型（Mixture-of-Experts, MoE）架构的工程化应用。

MoE 不是 DeepSeek 的原创——Google 的 Switch Transformer（2021）、Mistral 的 Mixtral 系列都采用了类似思路。但 DeepSeek-V2 的差异化在于：

更激进的稀疏激活策略：每次推理仅激活总参数的一小部分（如8个专家中激活2个），大幅降低计算量

多头潜在注意力（MLA）：通过压缩键值缓存（KV Cache）降低推理时的显存占用

用一个类比来说明：传统密集模型像"全体员工开会"，每次生成都动员所有员工参加；MoE 更像"专家会诊"，根据问题类型调用相关专家，既保持专业性，又避免资源浪费。

技术意义：证明了"高性能"与"低成本"不是零和博弈，可以通过架构设计实现鱼和熊掌兼得。

DeepSeek-V3（2024年12月）是这条路线的规模化验证。在更大的参数规模（超过V2数倍）下，V3 通过改进的训练稳定性策略和更高效的推理优化，进一步压缩了单位计算成本。

工程意义：让 MoE 从"实验室技术"走向"工业可部署"。根据其技术报告，V3 在保持与顶级闭源模型相当能力的前提下，推理成本显著更低。

（二）能力补强：从"会回答"到"会推理"

模型的"聪明"不只体现在知识储备，更体现在复杂问题的推理能力。这是DeepSeek-R1（2025年1月）要解决的核心问题。

R1 的技术路线是通过强化学习（Reinforcement Learning）训练模型展现推理过程，而不仅仅给出答案。这类似于让学生不仅写出"3×4=12"，还要写出"3个4相加等于12"的具体推导步骤。

关键突破：

在数学、代码、逻辑推理等需要多步推导的任务上，R1 表现显著优于同规模的大模型。

通过"纯RL路线"（不依赖人工标注的推理过程）实现推理能力涌现。

挑战：论文也坦诚讨论了纯RL训练的两个问题——推理过程的可读性不稳定、训练过程容易陷入局部最优。V3.2及后续版本通过混合训练策略（RL+监督微调）改善了这些问题。

（三）场景深化：从通用模型到专业工具

在建立"省钱体质"（V2/V3）和"推理能力"（R1）后，DeepSeek 开始针对高价值场景做专业化优化：

1. 代码智能：DeepSeek-Coder-V2（2024年6月）

这是一个典型的"专业选手"路线。与通用模型不同，Coder-V2 在代码语料上进行了大规模专项训练，并针对代码补全、bug修复、单元测试生成等任务做了策略优化。

应用价值：

IDE 中的智能补全（如 VSCode Copilot 类场景）

代码库级别的理解与重构

自动化测试用例生成

技术意义：证明了"在保持基座能力的前提下，针对垂直领域深度优化"的可行性。

2. 多模态理解：DeepSeek-VL2（2024年12月）

VL2 是将 MoE 思路扩展到视觉-语言模型（Vision-Language Model）的尝试。其核心能力是"看懂复杂图文内容"——包括 OCR、表格识别、图表理解、文档结构解析等。

应用场景：

财务报表自动化解析

合同文档的结构化提取

多模态客服

技术创新：在视觉编码器与语言模型之间引入稀疏专家层，在保持理解精度的同时降低推理开销。

3. 统一多模态：Janus-Pro（2025年1月）

如果说 VL2 侧重"看懂"，Janus-Pro 则进一步实现了"看懂+生成"的统一。这是一个可以同时理解图像、生成图像的多模态模型。

技术路线：通过统一的编码器-解码器架构，让模型既能做视觉问答，也能根据文本生成图像。

意义：降低了多模态应用的集成成本——不需要分别部署"理解模型"和"生成模型"。

二、最新突破：长上下文、长期记忆与训练稳定性

如果说前面的低成本、高推理、多场景的突破是"让模型更强更省"，那么 2025年到2026 年初的几篇论文则在解决一个更深层的问题：

如何让大模型从"一次性工具"变成"可长期协作的系统"？

这涉及三个关键能力：读得更长、记得更久、训得更稳。

（一）长上下文：让模型能"读完一整本书"而不崩溃

问题背景：传统的注意力机制（Attention）计算复杂度是序列长度的平方（O(n²)）。这意味着当上下文从4K扩展到128K时，计算成本会增加1024倍——这在工程上几乎不可接受。

DeepSeek 的解决方案：稀疏注意力。

Native Sparse Attention (NSA)（2025年2月）提出了一种"硬件友好的原生稀疏注意力"机制。其核心思想是：

不是让每个token关注所有历史token（全连接），而是通过分层策略实现选择性关注。

在训练阶段就使用稀疏模式（而非训练后剪枝），确保模型适配这种计算模式。

技术细节：

全局稀疏层：每隔一定距离采样关键token（如每隔128个token采样1个）

局部密集层：对最近的token保持全连接（如最近的512个token）

动态选择机制：模型学会根据任务特点调整关注范围

实际效果：在128K上下文长度下，NSA 使计算量降低约60-80%，且在长文档问答等任务上性能损失小于3%。

DeepSeek-V3.2（2025年12月）是将这一技术集成到生产模型的版本。V3.2 引入了DeepSeek Sparse Attention (DSA)，这是 NSA 的工程化实现。

应用价值：

企业知识库问答：可将整个产品手册（数十万字）作为上下文

代码库级分析：一次性分析整个仓库（数千个文件）

长期Agent任务：在多轮交互中不丢失早期对话内容

（二）长期记忆：从"临时记事本"到"档案柜"

问题本质：即使上下文窗口扩展到128K，也仍然是"临时记忆"——对话结束后就清空。对于需要长期跟踪的任务（如持续数周的项目协作），这远远不够。

Engram: Conditional Memory via Scalable Lookup（2025年）提出了一种可扩展的长期记忆机制。

核心设计：

记忆存储：将重要信息编码为向量，存储在外部记忆库（类似数据库）

条件检索：模型在需要时，根据当前查询动态检索相关记忆

记忆更新：支持增量更新和删除（这对合规至关重要）

技术创新：

流形约束：确保记忆编码的连续性和可检索性

分层索引：结合向量数据库和图索引，兼顾检索速度和准确率

应用场景：

个性化助手：记住用户的偏好、历史对话、工作习惯

企业客服：跨会话追踪工单历史

长期Agent任务：记住数月前的决策依据和中间结果

（三）训练稳定性：让更深更大的模型"练得住"

问题背景：当模型规模扩大到万亿参数、深度扩展到数百层时，训练过程会遇到梯度消失、梯度爆炸、loss震荡等问题。这类似于盖高楼时地基不稳。

mHC: Manifold-Constrained Hyper-Connections（2024年12月）是一篇相对"底层"的架构创新论文。

核心思想：

传统残差连接（ResNet）是"直线通道"：输出 = 输入 + 变换(输入)

超连接（Hyper-Connections）是"立交桥"：允许更灵活的跨层连接

mHC 通过流形约束确保这些"立交桥"不会导致训练失控

技术细节：

通过拉格朗日乘数法约束连接权重在特定流形上

使得超连接在训练初期接近恒等映射，后期逐步学习复杂变换

工程意义：

让更激进的模型架构（如更深的网络、更复杂的专家结构）变得可训练，为下一代模型的规模扩展提供基础。

三、技术趋势的三个判断

基于上述论文，笔者认为 DeepSeek 的技术路线反映了大模型行业的三个趋势判断：

判断一：从"演示能力"到"交付能力"

早期大模型竞争看重"能不能做到"——能否通过某个benchmark、能否完成某个任务。但当技术进入商业化阶段，企业更关心：

能否在预算内部署（推理成本）

能否持续稳定运行（长时间任务的可靠性）

能否满足合规要求（数据不出境、可审计、可删除）

DeepSeek 的 MoE 路线、稀疏注意力、长期记忆，都是在补"交付能力"的短板。

判断二：从"通用智能"到"系统能力"

单次对话的智商很重要，但真实业务场景需要的是系统级能力：

长上下文：能读懂整个合同、整个代码库

长期记忆：能跨天、跨周追踪任务进展

工具调用：能主动查数据库、调API、执行代码

多模态：能同时处理文本、图像、表格

V3.2、Engram、Janus-Pro 等工作，都是在把"聪明的模型"变成"能干活的系统"。

判断三：从"参数竞赛"到"效率竞赛"

当模型规模突破万亿参数后，继续堆参数的边际收益递减。行业开始意识到：

更大不等于更好，更好的定义是"同等能力下更便宜"或"同等成本下更强"。

DeepSeek 的技术路线本质上是"效率优先"：

MoE 是参数效率（用稀疏激活降低有效计算量）

稀疏注意力是序列效率（用O(n)或O(n log n)替代O(n²)）

mHC 是训练效率（让更深的网络更容易收敛）

四、知识产权与合规：开源大模型的三张清单

作为一家技术公司，DeepSeek 选择了"开源"路线——V2、V3、R1、Coder-V2 等模型的权重和代码均已开源。但"开源"不等于"无风险"，企业在应用开源大模型时,需要建立三张清单的合规框架：

清单一：代码许可证清单

核心问题：模型代码使用了哪些开源协议？

DeepSeek 系列模型代码主要采用Apache 2.0或MIT许可证（具体见各仓库的 LICENSE 文件）

如果代码中引用了 GPL 系列许可证的第三方库，需要注意"传染性"条款

操作建议：

使用 pip-licenses 等工具扫描依赖树

与法务确认是否接受 GPL 传染（如不接受需隔离或替换）

清单二：模型权重许可清单

核心问题：模型权重的使用条款是什么？

DeepSeek 的模型权重一般采用Model License（非标准开源协议）

典型条款包括：允许商业使用、禁止用于非法用途、可能限制某些敏感领域

与代码许可证不同，模型权重许可证尚无统一标准

操作建议：

下载权重前，仔细阅读 Hugging Face 或 GitHub 页面上的 LICENSE 文件

重点关注：是否允许商业使用、是否限制行业、是否要求开源衍生模型。

清单三：训练数据合规清单

核心问题：模型训练数据是否存在版权、隐私或商业秘密风险？

典型风险：

版权风险：如果训练数据包含未授权的书籍、文章、代码,可能面临版权侵权诉讼（参考 GitHub Copilot 案、纽约时报诉 OpenAI 案）

隐私风险：如果训练数据包含个人信息，可能违反 GDPR、《个人信息保护法》

商业秘密风险：如果训练数据包含企业内部文档，可能构成商业秘密泄露

操作建议：

要求模型提供方披露训练数据来源（虽然大多数开源模型不会完全披露）

在企业内部使用时,不要将敏感数据直接喂给模型，除非模型部署在完全隔离的环境

建立"数据进模型"的审批流程，明确哪些数据可用于微调、哪些禁止

监管趋势：

欧盟《AI Act》要求高风险AI系统提供训练数据文档

中国《生成式人工智能服务管理暂行办法》要求"训练数据来源合法"

合规框架总结

清单类型	核心风险	应对措施	责任部门
代码许可证	许可证冲突、传染性条款	依赖扫描、许可证兼容性审查	法务+技术
模型权重许可	商业限制、行业限制	LICENSE 文件审查、商业条款谈判	法务+采购
训练数据合规	版权侵权、隐私泄露、商业秘密	数据来源审查、敏感数据隔离	法务+安全+业务

五、未来展望：标准化与生态建设

当大模型从"实验室技术"走向"基础设施"，行业亟需建立技术标准和生态规范。笔者认为未来1-2年，以下几个方向会成为竞争焦点：

（一）长期记忆的标准化

核心问题：如何让不同模型的记忆系统互操作？

记忆格式标准：类似 ONNX 对模型格式的标准化

记忆迁移协议：避免"厂商锁定"（类似手机号携号转网）

记忆删除审计：满足 GDPR 等法规的"被遗忘权"

Engram 的启示：其可扩展 Lookup 机制为记忆系统的标准化提供了技术基础。

（二）长上下文的评测标准

核心问题：如何客观评估长上下文能力？

不只看"能处理多长",还要看"长距离信息检索的准确率"

需要建立类似"大海捞针"(Needle in a Haystack)的标准测试集

需要评估"长程一致性"（前后矛盾的问题）

行业动态：LongBench、L-Eval 等评测集正在成为事实标准。

（三）多模态安全标准

核心风险：

提示注入：通过图像中的隐藏文本绕过安全限制

数据泄露：模型在处理图像时泄露训练数据

版权风险：生成图像时复现训练集中的受版权保护内容

Janus-Pro 的挑战：统一理解与生成后，安全边界变得更模糊，需要更细粒度的控制机制。

结语：效率革命与可持续发展

回到文章开头的问题：DeepSeek 这家公司在做什么？

用一句话概括：

DeepSeek 正在证明,大模型可以在保持顶级能力的前提下，实现更低的成本、更长的上下文、更持久的记忆，从而让AI从"演示工具"变成"生产力系统"。

其技术路线的核心逻辑是：

经济性（MoE、稀疏注意力）→ 让部署成为可能

推理能力（R1）→ 让复杂任务可解决

系统能力（长上下文、长期记忆、多模态）→ 让持续协作可实现

这对整个行业的启示是：

大模型的下半场，不是"谁更大"，而是"谁更可持续"——
可持续的成本、可持续的能力、可持续的合规。

对企业决策者而言，选择大模型时应该问的不是"它是不是最强"，而是：

它能否在我的预算内运行？（经济性）

它能否在我的业务场景中持续工作？（系统能力）

它能否在我的合规要求下部署？（可审计性）

DeepSeek 的开源路线,为这些问题提供了一种可能的答案。但开源不是"免费午餐"，企业仍需建立严格的合规流程，确保代码、权重、数据三个层面的风险可控。

作者注：本文技术细节基于公开论文，部分应用场景为笔者推测，不代表 DeepSeek 官方的roadmap。文中的合规建议仅供参考，具体法律问题请咨询专业律师。如需转载，请保留参考文献链接。

参考文献：

DeepSeek-AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434.

DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.

DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.

DeepSeek-AI. (2024). DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv:2406.11931.

DeepSeek-AI. (2024). DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding. arXiv:2412.10302.

DeepSeek-AI. (2025). Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling. arXiv:2501.17811.

DeepSeek-AI. (2025). Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention. arXiv:2502.11089.

DeepSeek-AI. (2025). DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models. arXiv:2512.02556.

DeepSeek-AI. (2025). Conditional Memory via Scalable Lookup (Engram). GitHub Technical Report.

DeepSeek-AI. (2024). mHC: Manifold-Constrained Hyper-Connections. arXiv:2512.24880.

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行