社会热点
解读《2025龙蜥社区操作系统白皮书》,这四大亮点值得关注
2026-05-21 19:23
解读《2025龙蜥社区操作系统白皮书》,这四大亮点值得关注

今天,龙蜥社区做了一件值得记录的事——正式发布《2025 龙蜥操作系统开源社区白皮书》

这不是一份用来展示“我们做了很多事的成绩单,而是一份面向未来的行动指南。操作系统在 AI 时代该怎么走,龙蜥社区给出的答案已经越来越清晰。以下就从白皮书中摘取四个亮点来介绍:

亮点一:新型工作负载

OS 要学会管理 Agent

随着 AI 技术的快速发展,大模型和智能体(Agent)正在从实验室走向生产环境,成为企业数字化转型的核心驱动力。然而,一个关键问题常被忽视:当 Agent 在服务器上真正运行时,操作系统该如何应对?在白皮书里,这一问题被拆解为以下四个具体挑战:

1. 资源失控风险。Agent 任务通常运行时间更长、路径更具不确定性(可能因外部环境反复重试或改变路径),导致 CPU、内存、文件句柄等资源长期占用甚至泄漏。在 OS 层面表现为整机负载抖动、OOM(内存溢出)、句柄耗尽,甚至出现“单任务拖垮整机”的现象。
2. 攻击面扩大。 Agent 需要执行命令、读写文件、访问网络。传统容器的隔离粒度已显不足,OS 需提供更清晰、可组合的隔离手段(如 Namespace + Cgroup + Seccomp + LSM + 安全容器),将“Agent 能做什么”转化为可约束的运行边界。
3. 可恢复性缺位。 长周期任务更容易遭遇进程崩溃、节点重启或依赖超时。OS 层需为“可恢复性”提供检查点、快照及容器镜像层等基础能力。
4. 可观测性不足。当 Agent 出现问题时,定位往往跨越进程、容器、文件系统、网络、权限等多个层级。OS 需要提供统一的日志与事件、资源统计以及调用链 Trace 接口。
龙蜥给出的解法思路是:将 Agent 执行收敛为“受控工作负载”。OS 不去理解任务语义,而是确保资源约束、运行边界、可观测性、可恢复性这四大底座坚实可靠。具体载体包括 Rund 安全容器(提供更强隔离边界)、Cgroup 强化配额管理、系统级审计与 Trace 能力增强等。
简而言之,以前 OS 管理进程和容器;现在,OS 要学会管理 Agent——一种“长期运行、路径不确定、频繁调用外部工具”的新型工作负载。
这并非遥远的未来。2025 年,已有大量企业在生产环境中部署 Coding Agent、运维 Agent 和数据 Agent。谁先夯实“OS for Agent”的基础,谁就掌握了下一个平台级入口。

亮点二:KV Cache 成了 OS 层的战场

Mooncake+SGLang 的“三层分离”

白皮书对推理基础设施的规划,核心抓了两个点:强隔离运行边界和 KV Cache 治理。

为何 KV Cache 是推理系统的命门?大模型推理分为两个阶段:Prefill(预填充,计算密集)和 Decode(解码,内存密集)。在 Decode 阶段生成每个新 Token 时,均需访问之前所有 Token 的 KV Cache。KV Cache 的膨胀会直接挤压 GPU 显存,降低可服务并发量,推高成本并引入抖动。这是一个典型的“上层应用无法解决、必须下沉至基础设施”的问题。
面对这一基础设施层面的挑战,龙蜥社区给出的破局之道,正是通过以下方式,将分布式缓存与分离式架构发挥到极致:
首先,龙蜥部署 Mooncake,深度优化内核 + 开箱即用。Mooncake并非普通推理框架,其核心定位是分布式 KV Cache 传输与存储系统。龙蜥操作系统为 Mooncake 提供了优化的底层支持,使得 Mooncake 在龙蜥上可以发挥出最佳性能,实现“开箱即用”的极简部署。
其次,SGLang 的 PD 分离 + Mooncake 的 RDMA 加速。SGLang 在龙蜥上优化了 Prefill-Decode 分离部署,并通过 RDMA 网络高效传输 KV Cache。实测数据显示,在 PD 分离配置下,吞吐提升 120%,延迟降低 45%。
然后,EPD 三层分离——专为多模态打造。这是业界较新的架构理念,即将 Encoder(视觉编码)、Prefill(语言预填充)、Decode(解码)三个阶段完全分离至独立节点。白皮书揭示了一个反直觉的发现:ViT(视觉Transformer)并未从增加张量并行度中受益(TP=8 比 TP=4 更慢),因此 EPD 采用水平数据并行策略。在图像密集型工作负载下该方案使延迟降低 60%,吞吐翻倍。
最后,层次化 KV Cache——按热度分层管理。依据热度与生命周期对 KV 进行分层管理(GPU → 主存 → 其他介质),并与推理框架策略协同。这本质上是将存储系统的“冷热分层”思想引入推理领域。
对于从事推理服务运营的技术人员而言,一个核心判断已然明确:KV Cache 治理正从“推理框架的优化项”演变为“操作系统的基础能力”。正如十年前页面缓存管理从应用层下沉至 OS,今日 KV Cache 管理也在经历同样的演进路径。
龙蜥提供了一条可参考的技术路径:Rund 做隔离边界 + Mooncake 做 KV 传输与存储 + SGLang 做推理调度 + OS 内核做 RDMA/显存/NUMA 优化。这四层协同,构成了一个相对完整的“推理 OS”技术栈。

亮点三:打通 AI 安全的“最后一公里”

当模型越来越贵、对数据越来越敏感。本白皮书里提到了OpenAnolis Confidential AI 1.0,以及一个非常值得关注的新能力——Confidential MCP

Confidential AI:让模型“仅在可信环境中运行,其核心架构是“用户侧密钥托管 + 云端可信执行的双端模式:

  • 用户侧通过 Trustee 服务托管加密密钥。

  • 云端在 Intel TDX / 海光CSV 机密计算平台上部署 Trustiflux 可信执行环境。

  • 模型加密存储→远程环境认证→动态密钥获取→安全解密加载。

目前支持 Qwen3、DeepSeek 等主流模型。通俗来讲,模型仅在通过硬件级身份验证的隔离域中运行,云平台本身无法查看模型权重。

Confidential MCP:给MCP服务加硬件级“安全通道。这一举措更为前沿。MCP(Model Context Protocol)是当前 Agent 生态中最热门的协议之一,Agent 通过 MCP 调用各类工具和服务。然而,目前 MCP 调用链上的数据流动几乎缺乏安全保障。

龙蜥的做法是:在 MCP 服务上使用 TNG 构建基于硬件远程认证的安全通信信道。一方面保护数据的机密性和完整性,另一方面实时验证 MCP 服务运行的软硬件环境是否可信。

这意味着什么?当你的 Agent 调用一个 MCP 工具时,你可以在硬件层面验证:该工具确实运行在未被篡改的环境中,且通信内容未被窃取。

从“可信推理”延伸至“可信 Agent 工具调用”,机密计算的保护边界正在不断扩大。这对于金融、医疗、政务等对合规有硬性要求的行业尤为关键。以往的“AI 安全”多聚焦于模型对齐与内容安全;如今,“AI 安全”拥有了基础设施层面的硬约束——这正是操作系统应当承担的责任。

亮点四:OS 开始用 AI“维护自己”

在 AI 全面重塑计算架构的时代背景下,龙蜥社区始终秉持一个核心信念:AI 不应仅是被调度的负载,更是驱动操作系统架构演进的内生动力。 这一理念并非短期策略,而是贯穿了龙蜥近年来技术发展的主线。

基于此,龙蜥操作系统 Anolis OS 面向 AI 时代一直秉持两条主线协同演进,并逐步工程化落地为龙蜥操作系统的发行版特性和能力:
  • System for AI:面向智能体与推理时代,规划推理基础设施、强隔离运行时与以 Python SBOM 为核心的供应链能力,逐步工程化落地为龙蜥操作系统的特性与基础能力。

  • AI for System:用 AI 反哺系统工程,把运维从命令行走向自然语言,把研发从经验驱动走向证据链闭环,提升评审、测试、回归定位与 CVE 处置能力。

白皮书里还有什么?

以上仅仅总结了 4 个核心要点,完整版白皮书对九大技术方向、双产品线演进路线、各行业落地案例都有详细展开。

如果你想深入了解,获取方式很简单:关注公众号【OpenAnolis 龙蜥】,后台回复“白皮书三个字,或点击下方链接就能拿到完整版。

白皮书链接(点击文末阅读原文或复制链接至浏览器打开)

https://openanolis.cn/assets/static/OpenAnolisWhitepaper2025.pdf

—— 完 ——

关于龙蜥

龙蜥社区(OpenAnolis)是立足中国面向国际的 Linux 服务器操作系统开源根社区,引领云智融合技术浪潮下国产操作系统的创新发展。

经过五年发展,龙蜥社区目前已汇聚 25 家理事会成员,海光信息与 AMD 于 2025 年分别晋升为副理事长及理事单位,象征着国际主流芯片厂商对龙蜥生态的高度认可。同时,龙蜥操作系统累计装机量已突破 1000 万套,装机量从社区成立之初的百万级跃升至千万级,增比超 900%。超过 2 万名开发者与 1000 余家全产业链伙伴在此共建,服务覆盖金融、通信、政务、能源、交通、互联网及 AI 模型等众多行业,惠及超过 200 万用户。

发表评论
0评