新年巨献!AI原生基础设施实践解决方案白皮书!2026_社会热点_资讯

新年巨献!AI原生基础设施实践解决方案白皮书!2026

随着数智化转型进入深水区，人工智能技术正在以前所未有的深度和广度渗透各行各业，不仅重构了生产要素的配置逻辑，更催生层出不穷的新型产业形态，驱动经济社会发展模式发生根本性变革。

2025 年 8 月 26 日，国务院发布的《关于深入实施“人工智能+”行动的意见》提出“发展智能原生技术、产品和服务体系，培育智能原生企业，催生智能原生新业态”的总体要求，标志着我国数智化转型正迈向全面智能化阶段。
AI 原生基础设施作为智能原生业态创新的必要条件，已成为数智化时代新质生产力的关键技术底座。
AI 原生基础设施（AI-Native Infrastructure）是从设计阶段即将规模化支撑 AI 原生应用作为核心理念，全栈适配 AI 特性的基础设施体系。
其不仅仅是现有业态的“AI+”升级，而是从根本上重塑了价值获取、创造和交付方式，并实现技术自主可控、场景高效落地、生态开放协同。
新型基础设施适度超前建设的政策导向和“AI+”行动的持续推进使得产业对 AI 原生基础设施需求空前高涨。

本文旨在洞察国家战略导向、聚焦产业实践与技术前沿，深度融合多方实践经验，为国央企数智化领域的规划者、建设者及 AI 原生基础设施产业全链条从业者，提供兼具前瞻性与实践性的参考指引。

一、 AI 原生基础设施兴起的时代背景

当前，我国正迎来人工智能产业化发展浪潮，AI 的规模化应用业已成为行业发展主旋律。国家持续加大相关政策供给力度，护航AI 产业高质量发展。随着开源大模型 DeepSeek 等国产化新技术的涌现，企业引入 AI 技术的门槛显著降低，在拓展数智化转型实践纵深的基础上，为传统 IT 基础设施演进升级解锁了更多可能。

(一)政策牵引力

2017 年，国务院发布《新一代人工智能发展规划》，AI 作为国家“新质生产力”的关键载体，其重要性已上升至国家战略层面。

此后各部委陆续出台相关政策，从教育、产业、科技、安全等方面完善 AI 战略布局。2025 年 8 月 26 日，国务院公布《关于深入实施“人工智能+”行动的意见》，提出“发展智能原生技术、产品和服务体系，培育智能原生企业，催生智能原生新业态”。

“人工智能+”本质在于以 AI 技术作为核心驱动力，对经济社会全链条进行“重构式”融合，实现生产力跃迁和生产关系变革。AI 已不再是简单的效率辅助，而是像电力一样成为支撑所有行业的通用基础设施，重塑各个行业的底层逻辑，对 AI 的战略定位从“赋能工具”向“基础设施”转变。

2025 年 10 月 28 日，《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》提出“全面实施‘人工智能+’行动，以人工智能引领科研范式变革，加强人工智能同产业发展、文化建设、民生保障、社会治理相结合，抢占人工智能产业应用制高点，全方位赋能千行百业”。

AI 已成为国家布局推动智能经济发展、构建智能社会的重要战略要素。

表 1 我国人工智能关键政策

(二)产业驱动力

2025 年，全球 AI 产业化进程势头正劲，技术产业融合速度持续加快。

IDC 数据显示，2024 年全球人工智能的 IT 总投资规模为 3158亿美元，并有望在 2028 年增至 8159 亿美元。

同时，我国 AI 产业也进入规模化落地阶段，据中国信通院测算，2024 年我国人工智能产业规模已超 9000 亿元，同比增长 24%。

AI 正以核心引擎之姿，引领发展逻辑从从“数据驱动”向“智能决策”的跨越，加速新质生产力的形成。

AI 规模化落地具有三个显著特征：

一是 AI 应用从小模型应用转向大小模型协同，算力和数据需求量级跃升，推动 IT 基础资源供给规模持续增长；

二是 AI 深度融合企业核心业务场景，对IT 基础设施的性能和可靠性提出了更高要求；

三是 AI 应用范围持续拓宽，AI 普惠化成为驱动产业数智化的重要趋势。由此可见，AI规模化落地对企业 IT 基础设施提出了“既要大、又要快、还得省”的刚性需求，原有 IT 基础设施的转型升级刻不容缓。

(三)技术创新力

AI 技术历经多年高速发展，迄今仍处于持续迭代演进的上升期，其发展活力主要体现在算力、数据、模型和应用等四个方面：

算力方面，算力需求正驱动智算基础设施发生根本性变革，算力平台向超大规模异构融合与全局调度演进。为了支撑万亿参数的模型训练，智算集群正从万卡级规模向十万卡级迈进，这对集群网络拓扑（如非阻塞架构）、高速互联（800G/1.2T 光互联）和冷却技术（液冷普及率超 80%）提出了极高的要求。

在硬件层面，CPU、GPU、NPU 乃至存算一体芯片的超异构融合成为突破算力与能效瓶颈的关键路径，例如 NVLink-C2C 等先进互连技术，可实现内存一致性共享，大幅降低数据搬运开销。

在算力供给模式上，业界正在积极探索从单体中心支撑向社会化服务的转变，加速发展算力网络以实现对广域分布式、跨技术架构（通算、智算、超算）算力资源的统一标识、感知与智能调度。

领先企业已率先通过构建 “算网大脑”与“四算合一”调度平台，实现全国性算力资源的一站式供给与任务级智能编排，使算力成为可即取即用的社会公共服务。在自主可控方面，构建软硬件一体化适配平台，兼顾多元 AI 芯片生态，加速国产算力从“可用”到“好用”的进程。

数据方面，高质量数据集不仅是被动输入的“原料”，更是主动驱动模型、应用能力演进的结构性资产。

数据技术正经历三大范式跃迁：

一是从“以存储为中心”转向“以语义智能为中心”，通过本体建模与知识图谱，实现多源异构数据的深度语义对齐，使数据具备可推理、可组合的智能属性；

二是从“依赖真实采集”转向“按需制造”，依托生成式 AI 与物理仿真引擎，构建任务导向的合成数据工厂，实现高保真、高合规、高覆盖的虚拟语料自主生产；

三是从“静态交付”转向“动态闭环供给”，融合自动化质量评测、细粒度数据血缘追踪与跨模态检索能力，形成可评估、可迭代、可追溯的高质量数据持续供给机制。

这些创新共同构成了面向 AI 应用的新型数据基础设施，其核心目标不再是简单管理数据，而是生成智能、保障价值、激活要素。

基于这一基础设施，不仅能有效应对数据隐私、稀缺性和成本等关键挑战，更开启了“数据制造”的新范式。

为充分释放数据要素潜能，行业正积极构建数据要素流通基础设施，例如数据空间（Data Space）与数据联网（DSSN），结合隐私计算、区块链等技术，在确保安全合规与权益归属的前提下，促进跨域数据的安全可信流通与协同利用。

模型方面，大小模型产业共生，开源生态与闭源伙伴协同发展。聚焦通用智能的基础大模型、面向端侧和 IoT 的海量小模型，以及介于两者之间深耕行业知识的行业特色模型，共同构成了模型产业发展版图。开源生态（如 DeepSeek、Qwen）极大地加速了技术民主化，闭源模型则突破性能的束缚。

当前，模型技术的创新已不仅追求规模扩张，也注重效率与实用性的提升。

推理优化技术（如投机解码、注意力优化）致力于降低大模型服务成本。领先企业的 MaaS（模型即服务）平台通过模型、算力与研发过程的集成，提供从模型选型、微调到部署运维的一站式服务。

应用方面，智能体（Agent）作为新一代人机交互界面，已成为AI 应用的主流形态。前沿技术正在从单智能体任务执行领域，迈向多智能体的高质量协同，通过角色分工、知识共享与竞争协作，解决复杂规划问题（如供应链优化、自动驾驶等）。

支撑智能体规模化发展的基础设施日益成熟，正逐步演进为 “AI 原生操作系统”，提供关键的系统级服务，覆盖算力调度、记忆存储（向量数据库）、工具调用（通过 MCP 协议）、网络通信（Agent-to-Agent）以及全生命周期的可观测性与运维等方面。

这标志着 AI 基础设施的焦点，已从支撑模型训练，扩展到支撑模型的持续认知与行动。头部企业纷纷推出智能体研发平台（如 Microsoft Agent Framework、华为鸿蒙平台、字节扣子平台、阿里云百炼平台、中国移动聚智平台等）。

未来，标准化协议与低代码平台将进一步推动智能体向普惠化、专业化发展，深度嵌入企业的经营管理与生产运营的核心场景。

二、 AI 原生基础设施发展脉络与架构

AI 原生概念于 2020 年被百度首次提及。大模型技术的爆发刺激了产业在 2023 年对 AI 原生理念的关注。亚信、清华大学和 Intel联合在2024年将AI原生定义为“从设计之初即以 AGI（ArtificialGeneral Intelligence）能力为基础构建的数字化系统”。

2025 年国务院《关于深入实施“人工智能+”行动的意见》中首次以官方文件的形式提及“智能原生”，标志着 AI 原生系统及应用正式进入规模化落地阶段。AI 原生系统及应用的高速发展对企业 IT 基础设施建设提出了新的要求。

(一)AI 原生基础设施发展历程

AI 原生基础设施概念是一个不断发展的过程，可分为萌芽期、探索期、发展期三个阶段，从引入 AI 的 IT 基础设施逐步迈向 AI原生基础设施。

图 1 AI 原生基础设施的发展历程

萌芽期（1950 年至 2009 年）：著名的图灵测试诞生，标志着人类即将开启 AI 时代的新篇章。在此后长达 60 年的时间，AI 的应用与实践主要活跃在学术圈和实验室。这一时期，AI 算法依赖人工进行规则设计与开发，人们主要在 IT 系统中引入单个 AI 能力来解决问题，真正意义上面向 AI 的基础设施尚未形成。

探索期（2010 年至 2022 年）：大数据技术崛起，机器学习、深度学习大幅推动 AI 技术和产业升级。谷歌、亚马逊、阿里云、百度等头部云厂商积极发掘 AI 商业价值，并推出了 AI 相关平台及工具产品，满足机器学习、深度学习算法的研发、部署及服务需要，并同步开启了基于 AI 来设计基础设施的探索之路。

发展期（2023 年至今）：伴随 ChatGPT4.0 的问世，生成式大模型及相关应用爆发式增长，为企业数智化转型提供了无限可能。AI与各类业务场景深度融合发展，产业对人工智能的需求空前。大模型及智能体的技术革新，为基础设施的体系化重构迎来重要契机，全栈适配 AI 特性的基础设施已成为产业可预见的演进趋势。

(二)AI 原生基础设施定义

“AI 原生（AI-Native）”是指从设计之初就将 AI 考虑进来，实现产品、服务甚至整个业务模式围绕 AI 核心能力（理解、生成、推理、记忆）进行根本性创新的范式。

IT 基础设施是创建和部署应用所需的硬件和软件集合。

狭义基础设施概念立足 IT 支撑人员，聚焦 IaaS 层软硬件，是覆盖算力、网络、计算框架的能力底座。

广义基础设施则是从 IT 应用的最终用户视角出发，涵盖 IaaS、PaaS 及 SaaS 层能力，整合支撑应用所需的算力、存储、网络、数据、算法、工具等各类要素。本报告采用广义定义。

综上所述，AI 原生基础设施（AI-Native Infrastructure）是从设计阶段即将规模化支撑 AI 原生应用作为核心理念，全栈适配AI 特性的基础设施体系，通过软硬件、网络、数据、算法等要素的深度协同，为 AI 原生应用的研发、部署、运行和管理提供全生命周期的能力支持。

AI 原生基础设施以支撑丰富多样的 AI 原生应用为底层设计逻辑和核心驱动力，将大小模型协同的 AI 能力作为核心价值输出，赋能企业打造全新架构的 AI 原生应用系统，实现业务流程的全流程再造和系统性效率提升，进而催生出的全新的商业模式、组织形态和产业生态。

AI 原生基础设施将承载一种全新的生产关系，为人类从事业务价值创造活动开创了 AI 原生的工作场域，重塑了人机协同发掘-创造-验证-优化业务价值的新生产方式。区别于现有基础设施的“AI+”升级，它真正重塑了 AI 的业务赋能体系。

(三)AI 原生基础设施架构

AI 原生基础设施建设的总体目标是构筑面向智能应用的一体化开发、运行、支撑的软件平台，打通“算力调度—模型开发—智能体部署”全链路，助力 AI 应用一个入口访问、一套接口集成、一套用户体系登录、一套技术架构运转、一套数据标准流转、一套运维体系管理，构建统一技术架构、统一接口与标准、统一数据、统一用户、统一运营与运维体系。

基于 AI 原生基础设施在 AI 应用全生命周期表现出的特征，其架构设计按照各类关键要素的服务场景可分为通智算基础资源、通智算调度引擎、沙箱、模型研发生产、数据供给、向量数据库、智能体引擎、AI 网关、AI 原生应用开发管理、AI 原生运维、AI 安全保障、数字可信等。

图 2 AI 原生基础设施总体架构

通智算基础资源：通智算基础资源是面向大模型与智能体时代的新型“算力+数据+网络”基础设施，在传统通用算力基础上，将智能算力也纳入了整体算力基础设施体系。

通智算调度引擎：通智算调度引擎作为 PaaS 层技术底座，承担着容器层异构算力资源调度，连接底层基础设施与上层应用的作用。

引擎提供各类计算资源、网络资源和存储资源的统一动态调度分配，针对不同场景需求，支持多种调度策略配置与插件能力。

沙箱：沙箱是智能体运行时的关键组件，它使智能体能够安全、可靠地调用外部工具（如执行代码、操作浏览器），成为连接大模型智能体与外部世界的“安全操作手套”。

模型研发生产：模型研发生产模块提供覆盖模型微调、模型部署、模型评测、模型引擎服务、模型推理加速、多模型协同管理的工具链服务，支撑模型研发标准化、一体化、体系化的生产运营体系。

数据供给：数据供给模块是一个面向 AI 原生的综合性数据基础设施，集数据汇聚、存储、处理、标注、合成、质量评测、管理、共享、本体建模与迭代等能力于一体，构建全流程的高效数据供给体系。

向量数据库：向量数据库是 AI 原生应用的重要数据组件，承担高维向量的高效存储、检索与管理能力。依托既有的关系型数据库+向量引擎深度融合能力，以及混合查询基础架构，支撑智能知识检索、检索增强生成（RAG）等各种复杂应用场景。

智能体引擎：智能体引擎是 AI 原生基础设施中的核心上层建筑，其定位不仅是一个开发工具集，更应致力于打造企业级智能体操作系统（Agent OS）。智能体引擎汇聚全景 AI 能力，通过建设统一的技术标准与协议规范，屏蔽底层基础设施的复杂性，为上层应用提供标准化的“系统调用”接口。

AI 网关：AI 网关是 AI 原生基础设施构建的核心要件。其核心功能包括 API 路由、模型代理、智能体枢纽、MCP 调度、AI 流量分析等模块，具备丰富的集成和全生命周期治理能力。在最终用户、AI 应用和模型之间发挥枢纽作用，实现了 AI 应用研发生产要素的高效调配、为业务提供应用级精细化运营支撑。

AI 原生应用开发管理：将 AI 能力深度嵌入项目管理，覆盖需求、设计、开发、测试、部署的全过程，提供涵盖项目管理相关的智能化能力。从辅助研发升级为 AI 自主化操作，重塑研发交互方式，提升研发效能。

AI 原生运维：AI 原生运维是面向 AI 原生的全栈可观测运维体系，可精准监控模型行为、快速定位故障、科学评估输出质量，保障生产环境中模型的可靠运行，实现模型性能与业务需求的深度融合，确保 AI 应用高效稳定安全运行。

AI 安全保障：AI 安全保障是 AI 原生基础设施安全、可靠、可信运行的核心保障体系，助力系统应对提示词攻击、数据投毒等新型风险，确保 AI 行为可控、输出合规、运行可信。

数字可信：以数字可信体系为基石，构建覆盖“可信算力协同、可信数据供给、可信模型训推、可信应用治理”并以“可信测评体系”贯穿支撑的总体架构，形成面向 AI 原生的可信 AI 能力底座。

三、 AI 原生基础设施建设思路

(一)通智算基础资源

通智算基础资源是面向 AI 原生的新型“算力+数据+网络”基础设施，包括智算资源和通算资源在内的弹性资源池。

智算资源：是以 GPU、NPU、MLU 等异构加速卡为核心、通过高速 RDMA 网络与分布式存储池化形成的弹性 AI 算力资源，为 AI 模型的训练、微调和推理提供高效的支撑。

通算资源：是由 x86/ARM 服务器、大内存、SSD 组成的通用算力，负责处理向量数据库、消息队列、AI 训练数据预处理等通用负载。通智算基础资源的管理优化是实现 AI 原生基础设施高效、低成本运营的关键。

企业通过采取制定合理的资源规划方案、实现智算资源与通算资源的融合调度、建立全面的资源监控体系以及实施资源回收与再利用策略等措施，可以充分利用资源的弹性优势，满足业务快速变化的需求，最终实现像水电一样按需取用 AI 算力的能力。

(二)通智算调度引擎

在 AI 原生基础设施整体架构中，通智算一体化调度引擎发挥着容器层异构算力资源调度、连接基础资源与上层应用的作用。引擎提供各类算力资源、网络资源和存储资源的统一动态调度分配，针对不同场景需求，支持多种调度策略配置与插件能力。

图 3 通智算一体化调度引擎架构

通算资源管理：可按照集群、主机、租户配额、系统配额等维度进行通算资源（CPU、内存等）的管理和监控。

智算资源管理：可按照集群、主机、设备卡、租户配额、系统配额等维度进行智算资源（GPU、NPU、MLU、显存等）的管理和监控。

算力虚拟化：基于各类算力资源的技术架构，通过软件定义资源池的方式，实现对异构通、智计算设备的适配支持与虚拟化调度。

调度策略管理：可按照集群和主机等维度对通、智算资源调度策略进行统一配置管理，如设置集群或主机计算资源超售比、虚拟化切分比、队列调度、网络拓扑感知调度、Gang 调度、平铺紧凑策略等，以支持更多场景下资源的高效利用。

调度插件管理：支持多类型智算资源调度插件的一键安装和卸载，插件能够实现对集群智算资源的感知发现，并能够实时更新。

异构算力资源调度引擎建设主要分为算力虚拟化层、AI 云原生编排调度层两层架构。

算力虚拟化层基于各类型算力资源的内核与驱动技术架构，通过软件定义资源池的方式，在内核态与用户态进行 API 拦截，实现对异构通、智算设备的适配支持与虚拟化调度，为调度层提供算力虚拟化基础能力；AI 云原生编排调度层基于底层算力虚拟化统一纳管适配，进行统一资源管理、应用管理和调度策略管理等，为上层模型服务层提供算力编排调度能力。

(三)沙箱

沙箱是一种资源隔离与控制技术，它通过构建一个受限制、可监控的虚拟执行环境，使程序或代码能够在此环境中运行，而无法直接访问或影响真实的主机系统、网络、数据和其他应用程序。

在AI 原生应用架构中，智能体沙箱使智能体能够安全、可靠地调用外部工具（如执行代码、操作浏览器），成为连接大模型智能与外部世界的“安全操作手套”。

沙箱作为数字世界的安全隔离与实验场，其核心内涵在于“隔离”与“控制”，将潜在的威胁如恶意代码、不稳定程序、未经测试的软件限制在可控范围内，是保障系统整体安全和稳定的关键基础设施。根据智能体的应用类别，沙箱可分为浏览器沙箱、代码沙箱、桌面沙箱、手机沙箱四个场景。

图 4 AI 沙箱架构

浏览器沙箱：将网页内容（如渲染进程、插件）的执行环境与浏览器内核及操作系统隔离，防止恶意网页危害用户设备。实施同源策略（SOP）、内容安全策略（CSP），控制资源加载与通信，可限制网页脚本对本地文件系统、设备硬件的直接访问。起到抵御网络钓鱼、恶意脚本、零日漏洞攻击，保护用户上网安全的作用。

代码沙箱：为动态代码（特别是用户提交或 AI 生成的不可信代码）提供安全的执行环境，严格控制其系统调用和资源使用。核心能力包括系统调用过滤及虚拟化，如通过 Seccomp、Namespaces等机制限制或重定向文件、网络、进程的访问请求等。

资源配额限制，如严格限制 CPU 时间、内存、磁盘 IO 及执行时间，防止拒绝服务攻击等；环境虚拟化支持创建 Python、Node.js 等临时纯净语言运行时，执行完毕后环境即被彻底销毁，以此满足在线代码评测、第三方插件与脚本运行、AI 代码解释器（如 Code Interpreter）等场景的环境需求。

桌面沙箱：将整个桌面 AI 应用程序及相关数据封装在隔离环境中运行，防止 AI 应用潜在的恶意行为或不稳定因素影响宿主系统。核心能力包括文件系统虚拟化及重定向，使应用对“系统文件”的修改实际发生在隔离区，真实系统不受影响；预制可用软件，可根据客户需求，自定义工具软件，配合智能体完成任务的自动化。支持安全运行来源不可信的软件，测试不稳定或冲突的软件，保护企业终端安全。

手机沙箱：将手机应用及其数据封装在隔离环境中运行，防止应用潜在的恶意行为或不稳定因素影响手机宿主系统。智能体等 AI应用对手机系统文件、用户数据的读取和修改操作，实际仅发生在沙箱的隔离区域内，真实的手机系统和个人数据不受任何影响。手机沙箱支持安全运行来源不可信的手机智能体应用，保护手机终端的系统稳定与用户隐私安全。

沙箱的功能架构包括隔离层、编排与管理层、安全策略引擎、沙箱亲和调度、生命周期管理、资源管理、可观测性与运维等能力模块。

隔离层：基于 MicroVM 构建内核级隔离能力，提供更强隔离，适合多租户不可信代码；相比完整虚拟机消耗资源更小。

编排与管理层：建设调度器管理 MicroVM 实例。安全策略引擎：集成或开发策略管理模块，支持动态加载安全策略如网络规则。

沙箱亲和调度：提供根据调用参数、各节点资源使用情况、会话亲和需求等信息将沙箱调用请求定位到合适的节点上。生命周期管理：实现实例的创建、暂停（快照）、恢复、销毁全生命周期自动化管理。资源管控：集成配额管理（CPU、内存、磁盘、网络），防止资源滥用。

可观测性与运维：采集实例级别的资源使用率、网络连接、进程列表等指标，记录所有安全相关事件（如策略违反、逃逸尝试）和用户操作日志，建立沙箱基础镜像和宿主系统的安全补丁定期更新机制。

(四)模型研发生产

模型研发生产提供覆盖模型微调、模型部署、模型评测、模型引擎服务、模型推理加速、多模型协同管理的工具链，支撑模型研发标准化、一体化、体系化的生产运营体系。在 AI 原生基础设施的实践框架中，模型研发生产与服务是面向 Agentic AI 的核心引擎。

模型微调：是在预训练好的大模型基础上，使用目标任务的小规模数据集，对模型部分或全部参数进行小幅度更新的过程。可依托 LoRA 工具链压缩微调显存占用，结合 DPO、KTO、GP3 等偏好优化算法，精准提升模型效果。

模型部署：是将训练好的机器学习、深度学习模型从研发环境迁移到生产环境，使其能够接收输入、执行推理并输出结果的过程。核心目标是让模型稳定、高效、低成本为 AI 应用提供服务。

模型评测：是对 AI 模型的性能、效果、安全合规等维度进行系统性评估的过程。通过多模型可视化批量评测工具解决单模型评测低效问题，引入“裁判员模型”构建自动化、并行化的智能评估体系。

模型引擎服务：是执行模型推理的核心组件，负责解析模型格式并高效运行推理计算，常用引擎如 ONNX Runtime、TensorRT、OpenVINO、TorchServe 等。

模型推理加速：通过量化、并行计算、剪枝等技术，削减模型计算量与内存占用，核心价值在于降低推理延迟、提升吞吐量。可基于 vLLM、SGLang 等技术构建多模型集成框架，通过专家并行、PD分离等策略实现大模型推理效率的提升。

多模型协同管理：是在统一的管理框架下，对多个功能各异、部署环境不同的 AI 模型进行统筹调度、版本管控、资源分配与生命周期维护的管理模式。通过搭建标准化的模型注册中心与服务编排平台，实现多模型的按需调用、协同推理。

模型研发生产模块在建设过程中，可能会面对现存的“模型研发周期长、推理性能不足、工具碎片化、协同管理难”等痛点，需锚定业界主流训推技术，以“推理加速引擎、全栈多模态服务、精准模型研发、模型评测体系”为四大战略支点，构建覆盖“模型引擎-部署-微调-评测-管理”的全链路工具链，最终实现推理性能与模型质量的双重保障。

(五)数据供给

数据供给模块是一个面向 AI 原生的综合性数据基础设施，集数据汇聚、存储、处理、标注、合成、质量评测、管理、共享及跨模态检索等能力于一体，构建覆盖“采—存—治—标—用—评—管”全流程的高效数据供给体系。

图 5 数据供给平台架构

数据汇聚：作为数据入口，支持多源异构数据的统一采集与回流，保障语料来源广泛、更新及时，为大模型训练提供持续且全面的原始数据基础。

多模态存储：面向图文音视频等异构数据类型，打造多模态湖仓一体、图数据库等存储能力，适配多模态数据存储，确保数据存储的高效与灵活。

多模态处理：集成数据清洗、去重、脱敏、价值观合规过滤及跨模态对齐等核心处理能力，通过可编排的数据管线对原始语料进行自动化治理，提升数据一致性、可用性与语义对齐度，为后续标注、合成与训练环节奠定高质量数据基础。

数据标注：集成智能标注、思维链标注等先进工具，紧密贴合大模型团队标注需求，在保障标注准确性的同时显著提升标注效率。

数据合成：基于大语言模型、扩散模型等生成技术，通过数据改写、数据蒸馏、GAN 合成、VAE 合成等手段，构建高质量、任务导向的合成语料，有效扩充原始语料的规模与多样性。

质量评测：建立覆盖完整性、干净性、专业性、多样性、安全性等维度的自动化评估体系，结合规则引擎、统计指标与模型打分，对数据进行细粒度质量量化与问题诊断，实现数据质量的闭环管控与持续优化。

数据管理：提供全生命周期的数据管理能力，包括元数据管理、数据血缘追踪、版本控制等，支持对海量语料的精细化分类、检索与运营，确保数据可管、可控、可追溯。

数据共享：通过数据 MCP 服务、统一数据目录等，打破部门与系统间的数据孤岛，在保障隐私合规与访问控制的前提下，实现跨团队、跨项目、跨平台的高效数据流通与协作复用。

本体建模与迭代：通过构建领域本体模型、自动抽取与对齐多源语义，形成结构清晰、语义一致的知识骨架，支撑数据到业务的精准投射与智能系统的可解释推理。数据供给平台通过自动化流水线与智能工具链，支持多源异构数据（如文本、图像、音频、视频等）的统一接入与融合处理，为大模型训练提供高质量、多样性的语料资源。

(六)向量数据库

向量数据库是 AI 原生应用的重要数据组件，承担高维向量的高效存储、检索与管理能力。依托既有的关系型数据库和向量引擎深度融合能力，以及混合查询基础架构，支撑智能知识检索、检索增强生成（RAG）等各种复杂应用场景。向量数据库主要功能包括多模态查询、向量检索、分布式向量等。

图 6 向量数据库架构

多模态查询：是在一个查询请求中无缝融合标量过滤、全文检索和向量检索等多种查询模式的能力。通过多模态查询可解决单一检索模式的局限性，实现“精准筛选”与“语义扩展”的平衡。

在RAG 场景中，多模态查询可确保系统既能理解用户提问的深层意图，又能严格遵守业务约束条件，返回相关且精准的知识片段，极大提升生成答案的准确性和可控性。多模态查询的关键技术指标包括查询延迟、查询吞吐量、召回率等。

向量检索：是在海量高维向量数据集中快速找到与目标向量相似的多个向量数据的能力，其核心是高效的索引结构和搜索算法。向量检索是决定向量数据库性能的关键因素，直接决定了 RAG、推荐系统等应用的响应速度和用户体验。

高性能向量检索通常采用分层索引与量化技术，在内存中建立导航图（如 DiskANN,HNSW）实现向量数据的高速粗筛，在磁盘上存储精细向量数据以保证存储容量，使用乘积量化等技术压缩向量，减少 I/O 开销，实现内存与磁盘资源的平衡。

衡量向量检索效率的关键技术指标通常包括 99 分位延迟、吞吐量、索引构建时间、召回率等。

分布式向量：是将向量数据集自动分片到多个物理节点上，并通过分布式查询引擎协调跨节点搜索任务的能力。可通过分布式向量解决单一节点的存储与算力瓶颈，实现系统的水平扩展，提升系统的高可用性、容错性和弹性伸缩能力，对于支撑企业 TB/PB 级知识库的 RAG 应用至关重要。

分布式向量的关键技术包括数据分片与负载均衡策略、分布式查询优化、节点故障自动恢复等。

向量数据库作为 RAG 架构中的“长期记忆”或“知识库”，为LLM 提供准确、相关的上下文信息，在 RAG 流程中扮演“语义理解与检索”角色。

AI 原生基础设施中，向量数据库整体建设理念要注重融合架构、开发者友好两个方面：融合架构需摒弃“向量引擎+关系数据库”的松散耦合模式，在传统关系型数据库的高性能、高稳定性和数据强一致的基础上，增加支持多种类型的向量数据，与标量数据统一存储、统一管理、统一查询，从根本上优化混合查询的性能；开发者友好提供完善的 SQL/NoSQL 接口，深度集成主流 AI开发生态（如 LangChain 等），降低使用门槛。

(七)智能体引擎

智能体引擎是 AI 原生基础设施中的核心上层建筑，其定位不仅是一个开发工具集，更应致力于打造企业级智能体操作系统（AgentOS）。

引擎建设依托中台架构，汇聚全景 AI 能力，通过建设统一的技术标准与协议规范，屏蔽底层基础设施复杂性，为上层应用提供标准化的“系统调用”接口。

其核心内涵在于实现从“模型驱动”向“智能体驱动”的范式转变，为各行业场景提供高效的应用开发能力与稳定的运行环境支撑，推动企业级 AI 原生应用规模化快速落地。

引擎架构设计自下而上分为 Agent OS 内核层、智能体开发套件层和 AI 原生应用生态。

图 7 智能体引擎架构

Agent OS 内核层作为 Agent OS 的“心脏”，负责智能体的调度、通信、资源管理与核心认知，主要包括内核引擎、智能体互联、MCP接入、知识库四大核心模块。

内核引擎：是智能体的核心控制单元，负责模拟人类的认知过程，集成认知框架，提供标准化的认知处理流，既支持单智能体的独立思考，也支持多智能体的复杂协作。引擎内置长短期记忆模块，使其具备跨会话的记忆保持能力，能够从历史交互中持续学习。引擎提供上下文工程能力，可动态管理模型上下文窗口，利用智能压缩与检索技术，确保在长窗口交互下关键信息不丢失，从而显著提升决策准确性。

智能体互联：定义了智能体社会的“通用语言”与交互规范，致力于实现不同平台、不同架构智能体之间的互操作，支持 A2A、REST、gRPC、流式消息等多种能力交互协议，屏蔽不同能力实现形态带来的差异，使智能体可与其他智能体进行能力协作。

基于能力语义描述、运行状态和上下文约束，通过智能路由在多智能体节点之间动态选择最优调用路径，支撑跨模型、跨平台、跨区域的能力互联。

此外，智能体互联能力定义了人机协同与 Assistant API 标准接口，支持 Human-in-the-loop 反馈机制，并通过可信安全与注册发现机制，实现智能体身份可信及动态寻址。

MCP 接入：作为规范 AI 模型在推理、协同过程中上下文信息传递与交互的标准协议，MCP 为各类工具的协同提供了统一协议参考。支持 MCP 服务的接入，使智能体可以直接发现和调用 MCP 能力。

知识库：作为智能体的“外部大脑”，支持检索增强生成技术，允许智能体挂载企业私有文档与结构化数据，为智能体的推理过程提供领域专业知识，增强智能体在专业领域决策能力的同时也起到减少幻觉的作用。

引擎支持知识管理能力，包括权限管理、版本管理、知识索引、异常监测等，并提供知识检索、查询及推理等服务。

智能体开发套件层（Development Kit）主要为不同层次的开发者提供高效的智能体开发工具，主要包括高代码智能体的深度定制、低代码智能体的快速构建与智能体调试三大场景。

高代码智能体：面向专业算法工程师与全栈开发者提供高代码智能体开发能力，具有定制灵活性。高代码智能体的开发通常依托智能体开发框架，内置多种智能体设计模式（如 ReAct、AutoGPT、COT 等），允许开发者利用代码精细控制智能体的每一个行为细节。可面向智能体开发人员提供标准化的 SDK（如 JoinAI Agent SDK），加速复杂应用落地。

低代码智能体：为降低开发门槛，面向业务分析与产品设计，提供低代码快速构建能力。支持通过可视化编排工具，以拖拉拽的方式定义单智能体逻辑或多智能体协作流程（SOP），配合上下文引擎，自动管理对话上下文，简化提示词工程的复杂度。提供组件化配置功能，允许用户通过图形化界面灵活配置工具插件、工作流与知识库，实现“搭积木”式的应用构建体验。

智能体调试：针对智能体开发中常见的“黑盒”难调试痛点，智能体引擎需提供一套完整的调试工具链。智能体调试模块提供基准测试集，支持自动评估智能体在准确性、安全性等方面的表现，并给出优化建议。通过引入 Agentic RL 机制，利用环境反馈自动优化智能体决策策略。通过智能体观测工具实现执行轨迹的可视化回放，帮助使用者直观理解智能体的决策路径与逻辑漏洞。应用生态层的关注重点是如何将智能体引擎的核心能力转化为面向最终用户的具体应用，实现智能体能力的最终交付与价值释放，包括通用超级智能体与 Coding 智能体等。

通用超级智能体：利用多智能体架构打造通用超级智能体，支持精确的多模型协同及上下文管理，具备丰富的工具集合，并针对不同业务场景持续优化算法集合，具备模糊推理/时间推理能力、多源信息查询及推理能力、Agent-Code 协同能力等。

Coding 智能体：专精于代码生成与软件工程任务，赋能编程场景。与普通辅助工具不同，Coding 智能体能够贯穿智能应用建设的全流程，实现从需求分析、智能体设计、智能体开发到智能体发布的全流程智能化，最大程度降低智能体应用构建门槛。

智能体引擎建设应遵循四大核心设计理念，以支撑“Agent OS”的愿景落地。首先是生态开放协同，依托中台架构汇聚全景 AI 工具与能力，构建开放式架构体系，向下兼容异构算力与模型，向上支撑用户个性化定制需求，打破技术孤岛。

其次是企业级生产保障，区别于实验性框架，建立研发测试生产全流程的严格保障机制、多租户多环境隔离及 SRE 服务体系，确保智能体在复杂企业环境下的高可用性与稳定运行。同时打造极致开发体验，推行“积木式组合搭建”与“高低代码混合开发”模式，支持用户通过全生命周期的一站式管理快速构建场景化应用。

最后，推动核心智能引擎进化，全面升级智能体认知框架与群体协作能力，重点强化智能体在感知、规划、决策、行动、记忆与自主进化六大维度的能力，实现从“工具型”向“认知型”智能体的跃迁。

(八)AI 网关

AI 网关是 AI 原生基础设施构建的核心要件。其核心功能包括API 路由、模型代理、智能体枢纽、MCP 调度、AI 流量分析等模块，具备丰富的服务集成和全生命周期治理能力。在最终用户、AI 应用和模型之间发挥枢纽作用，实现了 AI 应用研发生产要素的高效调配、为业务提供应用级精细化运营支撑。

图 8 AI 网关架构

API 路由：是从外部客户端（如 AI 应用、终端用户、第三方系统等）指向 AI 系统内部服务（如大模型集群、MCP Server、AI 智能体业务层等）的请求流量入口，以及从系统内部返回给外部客户端的响应流量入口。作为承接这类跨系统边界流量的统一接入点，API 路由提供统一鉴权、IP 策略管理、流量的限流、熔断和降级管理、数据加密、API 发布、路由转发、多版本管理等功能，为系统提供统一、全面的边界治理能力。

模型代理：是专门针对各类 AI 模型（如大语言模型、推理模型等）的核心代理模块。作为客户端应用与多源模型之间的中间层，模型代理封装不同模型的接口并提供统一接入方式，同时统筹模型调用的各类管控操作，是衔接应用与模型的关键枢纽。模型代理通过统一接口与协议，降低集成与迁移成本；通过重试机制，提升模型调用稳定性；通过 FallBack 机制，在主模型异常时可进行自动切换兜底，从而保障服务连续性。

智能体枢纽：是适配 AI 智能体交互场景的专项功能模块。作为智能体与模型、工具、外部系统及其他智能体的统一交互枢纽，基于 MCP、A2A 等专属协议完成协议适配与标准化接入，同时提供会话上下文管理、精细化安全权限管控、流量治理及全链路可观测能力。智能体枢纽可以屏蔽各层服务所使用的技术差异、降低多智能体集成成本，保障智能体协同的稳定性、安全性与可运维性。

MCP 调度：包括模型上下文协议（MCP）架构下的服务端托管模块，专门用于集中化管理多个 MCP Server，统筹协调 MCP Server注册，统一调度请求，管控服务生命周期，从而保障系统稳定。

AI 流量分析：是针对 AI 模型调用场景的运营支撑能力，通过网关收集、整合并分析 AI 流量的全链路数据，涵盖调用指标、请求日志、交互内容等关键信息，同时遵循 OpenInference 等 AI 专属规范进行数据标准化呈现，实现 AI 流量监控、问题追溯与行为分析等。

(九)AI 原生应用开发管理

AI 原生应用开发管理将 AI 能力深度嵌入项目管理，覆盖需求、设计、开发、测试、部署的全过程，提供涵盖项目管理相关的智能化能力。从辅助研发升级为 AI 自主化操作，重塑研发交互方式，提升研发效能。

图 9 AI 原生应用开发管理

需求：深度融合意图识别与需求知识图谱技术，将业务术语与行业规范建立关联。需求智能体利用检索增强生成（RAG）检索历史数据，并运用冲突检测与可追溯性分析技术，从用户反馈、会议记录等非结构化数据中自动提取意图，生成标准化的 SRS 或用户故事。内置的质量智能评估引擎可实时对需求的完备性、一致性与可测试性进行自动评分，实现高质量的需求挖掘。

设计：基于多模态能力与知识驱动决策，通过代码-设计双向同步技术，将文本需求转化为 Mermaid 或 PlantUML 可视化设计图。设计智能体能根据规格自动推演高层架构蓝图，生成模块划分建议、OpenAPI 接口定义和 E-R 数据模型等。结合设计模式匹配能力，设计智能体可推荐最优方案，并针对性能、安全及可维护性的架构提供智能评估，实现从需求到设计的无缝转化。

开发：开发阶段采用“AI 代驾”模式，依托代码领域大模型，在保留人类决策权的前提下提供行级补全、函数生成和代码重构等服务。开发智能体具备安全合规性检查能力，可自动识别漏洞并同步更新文档，实现代码与文档的实时一致。作为 IDE 中的智能伴侣，开发智能体具备上下文感知能力，能够进行代码解释、错误精准定位及调试辅助，大幅提升编码效率与安全性。

测试：基于风险驱动设计与全链路追溯技术，测试智能体结合代码覆盖率分析，可自动生成单元、功能及集成测试用例与数据，并根据代码变更范围智能筛选回归测试集。支持 AI 驱动的探索性测试，在执行测试后，可自动优化缺陷报告（填充环境信息、复现步骤），并利用缺陷根因定位技术对 Bug 进行分析与优先级排序，极大缩短修复周期。

部署：通过跨领域数据聚合技术，部署智能体能深度理解DevOps 工具链（Git、CI/CD）数据，根据变更内容评估风险等级，自动汇编发布说明书及标准化部署脚本，并通过接入监控日志，利用时序数据异常检测识别故障模式，实现智能告警聚合与根因分析，并主动生成故障自愈建议与告警抑制策略，保障系统高可用性。

(十)AI 原生运维

AI 原生运维是面向 AI 原生的全栈可观测运维体系，可精准监控模型行为、快速定位故障、科学评估输出质量，保障生产环境中模型的可靠运行，实现模型性能与业务需求的深度融合，确保 AI 应用高效稳定安全运行。AI 原生运维体系涵盖全栈可观测、AI 评估、告警治理、资源中心、指标采集等核心能力。

全栈可观测：以探针埋点技术为基础，具备零代码接入、token成本分析、端到端链路追踪能力，可呈现智能体内部、推理引擎内部工作流的详细执行过程，包含调用 LLM 和 MCP server，以及输入输出情况。通过串联用户终端、AI 网关、模型应用、模型服务、数据存储、通智算基础资源等多个层级，采用全路径还原、多维度关联、上下文透传等技术，将 AI 应用内部流程变得“可感知”，实现全链路 LLM Trace 串联。

AI 评估：通过构建多维度、全流程的自动化评估能力，实现大模型输出质量的自动化验证，降低人工审核成本。一套完整的评估体系涵盖性能指标评测、鲁棒性与泛化能力测试、偏见与公平性评估审查、可理解性与可解释性分析、合规与伦理风险筛查、持续监测机制和决策框架的构建等。

结合裁判模型、用户反馈、人工标注等多元评估手段，支持文本简洁度、上下文正确性、事实准确性等关键质量维度的量化指标动态追踪，实现 AI 评估的多范式全景。

告警治理：用 AI 代替人工经验，实现告警管理的“精准、智能、自动、预测”。通过语义理解、上下文关联、历史数据学习等技术实现从“海量告警”到“有效告警”的关键筛选，通过大模型的深度推理、多维度数据关联、威胁情报整合、动态规则优化等方式，实现专家级研判。

资源中心：通过统一建模（对象标准化定义）、统一接入（资产统一纳管）、统一调和（资源数据一致），将 AI Native 全域异构资源（包括智算资源、通算资源、存储资源、网络资源）纳入资源中心进行集中管理，实现全域可视、可管、可用。

指标采集：提供 AI 应用与服务的无侵入、低成本、高质量的指标采集能力，以字节码增强技术（Java 语言）、monkey patch 机制（Python 语言）、插桩技术（Go 语言）等方式实现智能体多框架埋点，注入可观测数据采集逻辑。

AI 原生运维体系以全栈可观测为核心，打通从用户终端到基础设施的完整链路，实现从问题发现到决策修复的全生命周期管理。

通过全栈可观测、智能化闭环和标准化协同三大核心架构，为 AI应用提供高可靠、高性能的运行保障，通过数据驱动与智能协同，构建面向 AI 原生时代的运维新范式。

(十一)AI 安全保障

AI 安全保障是 AI 原生基础设施安全、可靠、可信运行的核心保障体系，助力系统应对提示词攻击、数据投毒等新型风险，确保 AI行为可控、输出合规、运行可信。

应用层防护：聚焦输入安全，通过意图识别、频率控制、资源熔断等技术防御恶意诱导、炸弹指令及第三方污染数据攻击，确保交互过程可控。

模型层防护：确立合规底线，结合多模态内容审核、敏感信息动态脱敏、数字水印嵌入确保输出内容安全可溯，并构建提示词攻击防御、恶意文件检测、URL 拦截等多重威胁防御机制，同时结合越狱检测、幻觉抑制、反爬机制保障模型健康。

数据层防护：贯穿采集至销毁全流程，在采集阶段实施分类分级、脱敏去毒，传输阶段采用 VPC 加密、TLS 协议及最小化解密策略，存储阶段实现隔离加密，访问阶段执行最小权限控制，处理阶段进行实时过滤，删除阶段确保完全清理。

系统层防护：夯实基础设施安全，通过主机安全客户端、端口管控强化基础环境，利用安全沙盒隔离容器，借助镜像扫描与签名校验保障供应链安全，并基于防火墙与零信任网络实现内外网流量管控。

各层能力通过统一安全运营中心进行集中监控、智能分析与协同响应，形成闭环安全管理，整体实现从被动防护到主动风险评估的安全范式转变。一些关键指标包括攻击识别准确率超过 99.5%、审核延迟小于 200ms、PII 识别覆盖度达 20 类以上等。

(十二)数字可信

面向 AI 原生背景，协同治理加速演进，基础设施的核心瓶颈正在从“可用”转向“可信”，迫切需要在“算力—数据—模型—应用”全生命周期系统化融入可信能力，为此，需以数字可信体系为基石，构建覆盖“可信算力协同、可信数据供给、可信模型训推、可信应用治理”并以“可信测评体系”贯穿支撑的总体架构，形成面向 AI 原生的可信体系。

图 10 数字可信架构

基础设施可信：在基础设施层结合区块链、隐私计算等技术，构建链计算平台，提供开放的可信隐私计算服务，解决算力资源分散、利用率偏低以及隐私计算难以规模化的问题，为 AI 训推、智能体沙箱提供执行环境，为数据预处理与训练、模型保护与共享、智能体隐私信息处理提供安全可信的计算支撑。

数据内容可信：在数据内容层基于数字可信构建覆盖“可信采集、可信标注、可信清洗、可信处理、可信流通、可信审计”的数据治理可信能力集，通过数字可信基础设施对数据采集、加工、流转等关键环节进行全程可信记录，配合加密存储、分级分类与多方安全计算等机制，形成“可用不可见”的数据可信流通能力，为模型训推提供安全可控的数据加工环境，构筑高效、安全、可控的信数据能力。

模型训推可信：在模型训推层构建面向模型训推全流程的风险识别与拦截工具，打造覆盖“事前预防—事中追踪—事后审核”的全链路安全工具集，针对模型训练阶段可能出现的数据投毒、恶意样本混入、异常分布等问题实施风险识别与拦截，对模型推理阶段的恶意提示词注入、对抗攻击、异常调用行为等风险进行持续监测与证据留存，实现“风险可感知、可管控、可追溯”的闭环管理，打造 AI 可信训练场、隐私训推体系和风险可视化工具，为模型安全提供系统化保障。

可信应用治理：在可信应用治理层面向大规模、分布式的智能交互场景，通过融合区块链、隐私计算、可信身份等关键技术，打牢虚实共生、智能协同的数字可信能力，构建“身份可认证、记忆可留存、行为可追溯”信任协同体系，进而打造集“数字身份、数据资产、可信流通”于一体的“记忆银行”。

一方面面向智能体场景，构建“可信身份、可信行为、可信决策、可信互联”能力体系，为各类智能体提供统一身份认证、行为记录与审计、决策过程可解释、跨系统可信互联等支撑，确保人机协同与多智能体协同在可信环境下运行；

另一方面面向 AIGC 场景，打造以 AIGC 水印、AI 对抗、伪造检测与 AIGC 版权治理为核心的内容安全能力，切实保障系统与用户安全。

可信评测：面向 AI 安全的可信测评搭建覆盖多维指标的一体化测评体系，形成数据质量测评、大模型可信测评、智能体可信测评与 AI 应用测评等能力组合，同时构建自动化测试工具与高质量、可复用的测评数据集，实现对数据可靠性、模型安全性等关键指标的持续评估与对比分析，为安全可信体系提供可量化、可验证的技术依据，支撑“发现问题—评估影响—采取措施—复测验证”的治理闭环。

可信能力通过上述架构嵌入基础设施、数据内容、模型训推和应用治理各环节。基础设施层提供可验证的算力底座，数据内容层夯实可信数据根基，模型训推层构建“事前—事中—事后”安全闭环，可信应用治理层保障智能体与 AIGC 等在可控边界内安全运行，AI安全可信测评为整体运行提供量化评估与持续改进支撑。通过多层协同与测评贯通，构建结构清晰、可审计可追溯的可信体系，为 AI原生基础设施发展提供安全与信任保障。