2025-2026年开源大语言模型深度研究报告:架构革新、推理跃迁与算力主权
在通用人工智能(AGI)的演进历程中,2025年初至2026年初被视为“开源模型的分水岭”。这一时期,开源界不仅在原始参数规模上追平了闭源旗舰模型,更在推理效率、长文本处理、原生多模态能力以及智能体(Agentic)架构方面实现了范式转移。从DeepSeek引领的“推理革命”到阿里Qwen3.5的混合架构革新,再到智谱GLM-5对国产算力的极致适配,开源生态呈现出前所未有的繁荣。本报告将深入分析这一阶段最具影响力的开源模型,涵盖全尺寸参数规模、量化技术路径及其实际应用表现。
深度求索:DeepSeek的推理革命与效率基准
DeepSeek在2025年至2026年初的表现彻底改变了全球人工智能领域的竞争格局。该公司坚持的“效率优先”路径,通过多头潜在注意力机制(MLA)和混合专家架构(MoE)的深度优化,在极低算力成本下实现了顶尖的推理性能 1。
DeepSeek-V3系列:架构效率的巅峰
2024年底发布的DeepSeek-V3在2025年上半年通过多次迭代(如V3-0324版)确立了其在数学和编程领域的统治地位。该模型拥有6710亿参数,但每个Token激活仅370亿参数 2。其核心技术MLA通过大幅减少键值(KV)缓存的占用,使得长文本推理的内存压力降低了数倍,为后续的256K乃至更长的上下文窗口奠定了基础 1。
在2025年3月发布的V3-0324更新中,DeepSeek通过引入DeepSeek-R1的强化学习(RL)技术,显著提升了模型的逻辑推演能力。在AIME 2025等硬核数学竞赛测试中,该模型表现出了超越GPT-4.5的潜力 2。
DeepSeek-R1
DeepSeek-R1系列是2025年AI界的里程碑。不同于传统的监督微调(SFT)路径,R1-Zero证明了纯强化学习可以激励模型自发产生反思、自证明和长链思维(CoT)能力 4。而正式版的DeepSeek-R1则通过冷启动数据与RL的结合,在保持极高通用能力的同时,在科学推理(GPQA Diamond)上达到了世界领先水平 5。
DeepSeek系列模型全尺寸与量化概况
DeepSeek的量化策略极具前瞻性,其原生支持的FP8精度的模型权重在H100/H200集群上表现出极高的吞吐量。同时,通过将其逻辑能力蒸馏至Qwen 2.5和Llama 3系列,DeepSeek成功构建了一个涵盖1.5B到70B的端侧推理生态 2。
通义千问:Qwen3与Qwen3.5的混合架构革新
阿里巴巴的Qwen团队在2025年至2026年初通过Qwen3和Qwen3.5系列,展示了其在多语言支持、编程智能及长文档理解上的深厚积淀。
Qwen3:规模与多样性的结合
2025年4月发布的Qwen3系列采用了复杂的混合专家系统,训练数据量超过36万亿Token 3。Qwen3家族极其庞大,涵盖了从专为边缘计算设计的Qwen3-Flash到拥有4800亿参数的编程专家模型Qwen3-Coder-Plus 8。
Qwen3-Coder系列被认为是2025年最强的开源代码助手之一。其旗舰型号Qwen3-Coder-480B在SWE-bench Verified(软件工程基准测试)中取得了与Claude 3.7 Sonnet相当的成绩,支持多达358种编程语言,能够处理跨文件的大型代码仓修复任务 9。
Qwen3.5与Gated DeltaNet架构
2026年2月,Qwen3.5系列正式面世。该系列最显著的特征是引入了“Gated DeltaNet”混合架构 11。这种架构将线性注意力机制(Linear Attention)与传统的稀疏MoE相结合,解决了Transformer在超长上下文(100万Token以上)下的计算量二次增长问题 12。
Qwen3.5-397B-A17B作为该系列的首款开源旗舰,采用了“原生多模态早期融合”方案。与之前通过投影层连接视觉编码器的方案不同,早期融合允许模型在更深的层级进行文本、图像和视频的联合表征。这使得Qwen3.5在视觉智能体(Visual Agent)任务中表现卓越,能够实现像素级的屏幕元素检测与操作 12。
Qwen3/3.5系列模型规格与性能
| 总参数量 | |||
| 激活参数量 | |||
| 架构特点 | |||
| 上下文支持 | |||
| 主要性能指标 | |||
| 量化支持 |
Qwen3.5在推理速度上实现了质的飞跃。由于Gated DeltaNet的引入,其解码速度较Qwen3-Max提升了8.6倍至19倍,这在超长文本摘要和实时代码审计场景中具有决定性优势 13。
智谱AI:GLM-5与国产算力主权的崛起
智谱AI(Zhipu AI)在2025年至2026年初的发展轨迹,是中国人工智能领域追求“技术独立”与“工程成熟”的缩影。
GLM-4.5至GLM-4.7:智能体能力的深化
2025年中期,智谱推出了GLM-4.5和GLM-4.7系列。GLM-4.5被设计为原生智能体(Agentic)大模型,优化了对Claude Code框架的一键兼容能力 15。GLM-4.7则在代码生成和长文本理解上进一步突破,其HumanEval得分达到94.2,在200K上下文内实现了几乎零损耗的信息检索 5。
GLM-5:工程级智能与硬件主权
2026年2月发布的GLM-5是智谱的巅峰之作。作为一个拥有7440亿参数(每Token激活400亿)的MoE模型,GLM-5在技术上的最大亮点是其与国产算力的深度融合 17。该模型完全在华为昇腾(Ascend)芯片上利用MindSpore框架训练,证明了在脱离NVIDIA硬件生态的情况下,依然可以产出世界一流的边际模型(Frontier Model) 17。
GLM-5放弃了盲目追求参数规模的路径,转而强调“系统工程能力”。它引入了“slime”异步强化学习基础设施,解决了超大规模RL训练中的吞吐量瓶颈 17。在实际应用中,GLM-5能够处理跨文件的复杂软件工程任务,从架构设计、算法实现到Stubborn Bug修复,展现出了接近Claude 4.5 Opus的逻辑密度 15。
GLM系列全尺寸模型数据对比
| 核心架构 | |||
| 激活参数 | |||
| 训练Token数 | |||
| 许可证 | |||
| AIME 2025 | |||
| 量化版本 |
智谱坚持的MIT协议使得GLM-5成为了企业私有化部署的首选。通过INT4量化感知训练(QAT),GLM-5可以在极低的内存占用下保持99%以上的精度,为金融、医疗等敏感行业的本地化转型提供了坚实基础 18。
Moonshot AI:Kimi K2.5与万亿参数的智能体集群
月之暗面(Moonshot AI)在2026年初通过Kimi K2.5再次证明了其在长文本与多模态领域的领先地位。
Kimi K2.5:原生多模态与Agent Swarm
Kimi K2.5是一款拥有1.04万亿参数的巨型MoE模型,但得益于其精妙的设计,每次前向传播仅激活320亿参数 20。该模型在15万亿混合多模态Token上进行了预训练,实现了真正的“原生多模态”——视觉和文本能力在缩放过程中同步提升 20。
Kimi K2.5最引人注目的特性是其内置的“Agent Swarm”(智能体集群)机制 20。该机制允许模型将一个复杂的长期任务分解为多个并行子任务,并动态实例化多达100个专门的子代理进行协作。实验显示,在处理复杂的市场调研或跨领域研究任务时,Swarm模式能将完成时间缩短80%,且由于采用了并行代理强化学习(PARL)技术,有效避免了长链任务中的逻辑崩溃 20。
Kimi K2.5 技术参数与性能表现
| 架构类型 | |
| 总参数规模 | |
| 激活参数量 | |
| 专家配置 | |
| 注意力机制 | |
| 上下文窗口 | |
| 核心指标 | |
| 量化方案 |
Kimi K2.5在量化社区中引起了巨大反响。由于其原生采用INT4量化方法,即使是全精度权重也仅占595GB空间 23。通过Unsloth的动态1.8-bit量化,该模型的显存占用可降低至240GB,使得在配备256GB内存的高端工作站上运行万亿参数模型成为可能 25。
MiniMax:M2.5与AI Agent的经济学均衡
MiniMax在2025年至2026年初通过M2.1和M2.5系列,致力于解决大模型在生产环境中的“单位经济性”问题。
MiniMax-M2.5:效率与成本的极致平衡
2026年2月发布的M2.5是一个拥有2290亿参数的MoE模型,激活参数仅为100亿 27。MiniMax公开宣称,M2.5的设计目标是在保持前沿性能的同时,实现“1美元运行4台实例一小时”的经济效率 29。
在性能方面,M2.5在Berkeley函数调用排行榜(BFCL)中表现惊人,多轮函数调用得分高达76.8,远超同期的Claude 4.5和Gemini 3 Pro 31。这意味着M2.5在执行复杂的API编排、电商自动化和办公流程自动化时,具有极高的可靠性和容错能力 30。
MiniMax系列模型参数对比
| 总参数量 | ||
| 激活参数量 | ||
| 上下文窗口 | ||
| SWE-bench Verified | ||
| 推理速度 | ||
| 量化支持 |
M2.5的“Lightning”模式通过进一步压缩KV缓存和使用优化的算子,将输出速度提升到了100 Token/秒以上 30。这种速度对于构建需要低延迟反馈的交互式编码助手和实时办公Agent至关重要。
Google Gemma:Gemma 3与Gemma 3n的边缘革命
Google的Gemma系列在2025年继续在“小而强”的道路上狂奔,通过Gemma 3和Gemma 3n展示了端侧AI的上限。
Gemma 3:多模态的普及化
2025年3月发布的Gemma 3涵盖了1B、4B、12B和27B四种尺寸 33。除了1B版本外,所有型号均原生支持图像输入。Gemma 3引入了全新的注意机制,通过分离局部注意力(Local Attention)和全局注意力(Global Attention),在保持128K上下文的同时,显著降低了长序列推理的显存增长速度 34。
Gemma 3n:弹性推理与MatFormer架构
Gemma 3n是专为手机、平板等移动端设计的优化型号。它引入了两项突破性技术:MatFormer(马特廖什卡变换器)和PLE缓存(Per-Layer Embedding) 35。MatFormer允许模型在运行时根据设备负载动态切换激活参数量(如在E2B与E4B模式间切换),而PLE缓存则允许将层级嵌入存储在慢速存储(如SSD)中并在需要时加载,使显存占用降低了60% 35。
Gemma 3/3n系列规格一览
| Gemma 3 27B | ||||
| Gemma 3n E4B | ||||
| Gemma 3n E2B |
Gemma 3n集成了MobileNet-V5视觉编码器和USM语音编码器,使其能够直接在Android设备上实现离线的实时翻译和视觉场景理解,其量化后的推理速度比同类基础模型快13倍 36。
OpenAI gpt-oss:开源策略的防御与进攻
作为2026年初AI界最令人惊讶的举动,OpenAI发布了其首个真正意义上的开源权重系列——gpt-oss。
gpt-oss-120b 与 20b:性能与易用性的平衡
gpt-oss系列包含1170亿参数的120b型号和210亿参数的20b型号 38。该系列采用了高度稀疏的MoE架构,120b型号激活参数仅为51亿,使其可以在单张80GB的H100显卡上流畅运行 38。
OpenAI在该系列中引入了“三级推理强度”控制(低、中、高),开发者可以通过系统指令动态调整模型的思维链深度,从而在延迟和准确度之间进行实时权衡 38。在HealthBench(医疗推理基准)中,gpt-oss-120b的表现甚至超越了闭源的o1-mini,显示了OpenAI在垂直领域知识压缩上的卓越功力 39。
gpt-oss系列技术指标
| 总参数/激活参数 | ||
| 原生精度 | ||
| MMLU-Pro | ||
| AIME 2025 | ||
| 许可证 |
gpt-oss的发布被广泛视为对Llama 4和中国开源模型的强力回击。其Apache 2.0的许可策略和原生MXFP4量化支持,使其迅速成为企业构建高可靠性智能体服务的基石 40。
模型部署、量化技术与软硬件适配
在2025-2026年,模型的量化不再是简单的精度牺牲,而是一门与硬件特性深度耦合的艺术。
量化格式的范式转移:GGUF, AWQ, GPTQ
随着模型规模迈向万亿级别,量化格式的选择直接决定了模型能否进入生产环境。
1. GGUF与Unsloth Dynamic Quants: GGUF已成为CPU和统一内存架构(如Mac)的事实标准。Unsloth提出的“动态比特”技术(如UD-Q2_XL)通过对关键权重(如注意力和非专家层)保持较高精度,而对冗余专家进行深度压缩,实现了在2-bit下几乎无损的推理能力 24。 2. AWQ (Activation-aware Weight Quantization): 这种技术通过观察激活分布来保护重要权重,已成为H100/A100集群上4-bit推理的首选。它在保持指令遵循精度(MT-Bench)方面显著优于GPTQ 42。 3. MXFP4与NVFP4: 这是2026年新出现的原生硬件量化格式。由NVIDIA和OpenAI联手推动的MXFP4允许在保持BF16级别准确度的同时,将内存需求降低75% 40。
推理引擎的竞争:vLLM vs SGLang
在2025年的生产环境中,vLLM凭借其强大的生态兼容性(支持PagedAttention和MoE优化)占据了主流地位 27。然而,在极致性能领域,SGLang异军突起。针对Qwen3.5和GLM-5等模型,SGLang通过更精细的KV缓存调度和对Gated DeltaNet的原生支持,实现了比vLLM高出40%的吞吐量 12。
核心结论与未来展望
2025年至2026年初的开源模型报告揭示了以下三个核心趋势:
1. “思维”成为标配:无论是DeepSeek-R1、Kimi K2.5还是Qwen3.5,都将Chain-of-Thought(思维链)内置到了模型推理流程中。推理不再是Token的单纯预测,而是“思维逻辑”的显式展开。 2. 智能体化(Agentic)设计:模型设计从追求单一任务的高分转向追求长周期任务的协调。MiniMax的函数调用能力和Kimi的Swarm机制标志着大模型正在从“对话框里的文本机”进化为“能够操作软件栈的系统工程师”。 3. 算力与主权:国产大模型(如GLM-5)在受限算力条件下的崛起,展示了算法优化可以弥补硬件代差。同时,OpenAI gpt-oss的发布标志着硅谷巨头也开始利用开源作为地缘政治与商业博弈的工具。
开源模型的边界正在消失。在2026年初,任何具备适度硬件资源的开发者,都可以拥有一台具备世界顶级软件工程能力和数学逻辑推理能力的私人AGI。
---
2025-2026最具影响力开源模型汇总表 (截至2026年2月)
| DeepSeek | ||||||
| Qwen | ||||||
| Kimi | ||||||
| GLM | ||||||
| MiniMax | ||||||
| Gemma | ||||||
| OpenAI | ||||||
| Stepfun |
引用的著作
1. DeepSeek vs. OpenAI (Jan 2026): How the Free Model War is ..., 访问时间为 二月 24, 2026, https://dev.to/nima_moosarezaie/deepseek-vs-openai-jan-2026-how-the-free-model-war-is-changing-4095 2. The Complete Guide to DeepSeek Models: V3, R1, V3.1, V3.2 and Beyond - BentoML, 访问时间为 二月 24, 2026, https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond 3. Top LLMs To Use in 2026: Our Best Picks - Splunk, 访问时间为 二月 24, 2026, https://www.splunk.com/en_us/blog/learn/llms-best-to-use.html 4. unsloth/DeepSeek-R1-Distill-Llama-8B-unsloth-bnb-4bit - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/unsloth/DeepSeek-R1-Distill-Llama-8B-unsloth-bnb-4bit 5. Open Source LLM Leaderboard 2026: Rankings, Benchmarks & the Best Models Right Now, 访问时间为 二月 24, 2026, https://vertu.com/lifestyle/open-source-llm-leaderboard-2026-rankings-benchmarks-the-best-models-right-now/ 6. Qwen3.5-397B-A17B - Everything you need to know - Artificial Analysis, 访问时间为 二月 24, 2026, https://artificialanalysis.ai/articles/qwen3-5-397b-a17b-everything-you-need-to-know 7. Top 9 Large Language Models as of February 2026 | Shakudo, 访问时间为 二月 24, 2026, https://www.shakudo.io/blog/top-9-large-language-models 8. ModelStudio Console, 访问时间为 二月 24, 2026, https://modelstudio.console.alibabacloud.com/ 9. Ultimate Guide - The Best Qwen Models in 2026 - SiliconFlow, 访问时间为 二月 24, 2026, https://www.siliconflow.com/articles/en/the-best-qwen-models-in-2025 10. Kimi K2 vs Qwen 3 vs GLM 4.5: Full Model Comparison, Benchmarks & Use Cases - Clarifai, 访问时间为 二月 24, 2026, https://www.clarifai.com/blog/kimi-k2-vs-qwen-3-vs-glm-4.5 11. Qwen3-Next-80B-A3B-Instruct, 访问时间为 二月 24, 2026, https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list 12. qwen3.5-397b-a17b Model by Qwen - NVIDIA NIM APIs, 访问时间为 二月 24, 2026, https://build.nvidia.com/qwen/qwen3.5-397b-a17b/modelcard 13. Qwen3.5-397B-A17B API - Together AI, 访问时间为 二月 24, 2026, https://www.together.ai/models/qwen3-5-397b-a17b 14. Qwen/Qwen3.5-397B-A17B - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/Qwen/Qwen3.5-397B-A17B 15. New Released - Overview - Z.AI DEVELOPER DOCUMENT, 访问时间为 二月 24, 2026, https://docs.z.ai/release-notes/new-released 16. Ultimate Guide - The Best ZAI Models in 2026 - SiliconFlow, 访问时间为 二月 24, 2026, https://www.siliconflow.com/articles/en/the-best-zai-models-in-2025 17. GLM-5: China's First Public AI Company Ships a Frontier Model | by ..., 访问时间为 二月 24, 2026, https://medium.com/@mlabonne/glm-5-chinas-first-public-ai-company-ships-a-frontier-model-a068cecb74e3 18. Zhipu releases GLM-5 technical details: Engineering-grade intelligence, compatible with domestic computing power. - 富途资讯, 访问时间为 二月 24, 2026, https://news.futunn.com/en/post/69084722/zhipu-releases-glm-5-technical-details-engineering-grade-intelligence-compatible 19. Zhipu GLM 4.6: The Open-Source Frontier AI Model Guide | CodeGPT, 访问时间为 二月 24, 2026, https://www.codegpt.co/blog/zhipu-glm-4-6-open-source-ai 20. Kimi K2.5 in 2026: The Ultimate Guide to Open-Source Visual Agentic Intelligence - Dev.to, 访问时间为 二月 24, 2026, https://dev.to/czmilo/kimi-k25-in-2026-the-ultimate-guide-to-open-source-visual-agentic-intelligence-18od 21. moonshotai/Kimi-K2.5 - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/moonshotai/Kimi-K2.5 22. The Best Open-Source LLMs in 2026 - BentoML, 访问时间为 二月 24, 2026, https://www.bentoml.com/blog/navigating-the-world-of-open-source-large-language-models 23. Kimi-K2.5 GGUF quants larger than original weights? : r/LocalLLaMA - Reddit, 访问时间为 二月 24, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1qrfje8/kimik25_gguf_quants_larger_than_original_weights/ 24. unsloth/Kimi-K2.5-GGUF - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/unsloth/Kimi-K2.5-GGUF 25. Kimi K2.5: How to Run Locally Guide | Unsloth Documentation, 访问时间为 二月 24, 2026, https://unsloth.ai/docs/models/kimi-k2.5 26. Kimi K2.5: Still Worth It After Two Weeks?, 访问时间为 二月 24, 2026, https://maximelabonne.substack.com/p/kimi-k25-still-worth-it-after-two 27. MiniMax-M2, a model built for Max coding & agentic workflows. - GitHub, 访问时间为 二月 24, 2026, https://github.com/MiniMax-AI/MiniMax-M2 28. MiniMax-M2.5 - Model Info, Parameters, Benchmarks - SiliconFlow, 访问时间为 二月 24, 2026, https://www.siliconflow.com/models/minimax-m2-5 29. unsloth/MiniMax-M2.5-GGUF - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/unsloth/MiniMax-M2.5-GGUF 30. MiniMax M2.5 Highlights: A Practical Overview, Comparisons, and Hands-On Notes, 访问时间为 二月 24, 2026, https://www.iweaver.ai/blog/minimax-m2-5-highlight/ 31. MiniMax M2.5 Analysis: The New Frontier in Coding & Function Calling - Vertu, 访问时间为 二月 24, 2026, https://vertu.com/ai-tools/minimax-m2-5-officially-released-comprehensive-benchmarks-comparison/ 32. MiniMax-M2.5 - Vals AI, 访问时间为 二月 24, 2026, https://www.vals.ai/models/minimax_MiniMax-M2.5-Lightning 33. Gemma releases | Google AI for Developers, 访问时间为 二月 24, 2026, https://ai.google.dev/gemma/docs/releases 34. Gemma (language model) - Wikipedia, 访问时间为 二月 24, 2026, https://en.wikipedia.org/wiki/Gemma_(language_model) 35. Gemma 3n model overview | Google AI for Developers, 访问时间为 二月 24, 2026, https://ai.google.dev/gemma/docs/gemma-3n 36. Gemma 3N Model Architecture: A Complete Technical Deep Dive | by Nageswarara Rao Vutla | Medium, 访问时间为 二月 24, 2026, https://medium.com/@nageswararaovutla7/gemma-3n-model-architecture-a-complete-technical-deep-dive-d20a3c85bc50 37. google/gemma-3n-E4B-it-litert-preview - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/google/gemma-3n-E4B-it-litert-preview 38. OpenAI GPT‑OSS Benchmarks: How It Compares to GLM‑4.5, Qwen3, DeepSeek, and Kimi K2 - Clarifai, 访问时间为 二月 24, 2026, https://www.clarifai.com/blog/openai-gpt-oss-benchmarks-how-it-compares-to-glm-4.5-qwen3-deepseek-and-kimi-k2 39. GPT-OSS: A Technical Overview of OpenAI's Open-Weight LLMs | IntuitionLabs, 访问时间为 二月 24, 2026, https://intuitionlabs.ai/articles/openai-gpt-oss-open-weight-models 40. Introducing gpt-oss - OpenAI, 访问时间为 二月 24, 2026, https://openai.com/index/introducing-gpt-oss/ 41. gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI - GitHub, 访问时间为 二月 24, 2026, https://github.com/openai/gpt-oss 42. GPTQ vs AWQ quantization - Newline.co, 访问时间为 二月 24, 2026, https://www.newline.co/@zaoyang/gptq-vs-awq-quantization--d792476e 43. Which Quantization Method Is Best for You?: GGUF, GPTQ, or AWQ... | E2E Networks, 访问时间为 二月 24, 2026, https://www.e2enetworks.com/blog/which-quantization-method-is-best-for-you-gguf-gptq-or-awq 44. nvidia/Qwen3.5-397B-A17B-NVFP4 - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/nvidia/Qwen3.5-397B-A17B-NVFP4 45. Quantization - Hugging Face, 访问时间为 二月 24, 2026, https://huggingface.co/docs/text-generation-inference/conceptual/quantization


