


构建 AI Agent 原型仅需数分钟,但将其转化为可信的生产级系统却将消耗 80% 的精力。
真正的挑战在于跨越从演示到服务的“最后一公里”——这正是多数企业 AI 项目失败的鸿沟,也是新兴的 AgentOps(AI Agent 运维)旨在解决的核心问题。
在系列白皮书的第五章,Google总结了将 AI Agent 从原型成功转入生产的核心实践框架,关键要点如下:
AgentOps 的必要性:传统 DevOps/MLOps 无法应对 AI Agent 的自主性、状态性和动态执行路径。AgentOps 作为一门新 discipline,专为管理这些复杂系统而生。
信任框架三大支柱:建立信任依赖于系统化流程:以严格的评估作为质量门禁;通过自动化的 CI/CD 流水线实现可靠部署;在生产中采用“观察-行动-演进”的持续闭环进行管理。
未来在于互操作性:企业级 AI 正从孤立的 Agent 转向协作生态系统。通过 A2A(Agent-to-Agent)和 MCP 等标准化协议,可以实现 Agent 间的无缝协作,释放指数级价值。

1、生产的“最后一公里”:为何 AgentOps 至关重要

'AgentOps’,类似历史上从管理单体服务器的 IT Ops 进化到驾驭混沌微服务的 DevOps 一样,把监控 CPU/内存/网络 资源占用率换成了追踪 Agent 的“思维链”。本质没变,都是在为系统的不可预测性买单。
构建 AI Agent 原型轻而易举,但真正的挑战在于“最后一公里”:将其打造成可靠、安全且值得信赖的商业应用。这道鸿沟是大多数企业 AI 项目失败的根源,也是新兴的 AgentOps discipline 的核心关注点。忽视生产准备不仅仅是技术失误,更是重大的业务失败。
忽视生产准备将导致严重业务风险:
商业损失:客服 Agent 被诱导,免费赠送产品。 数据泄露:Agent 无意中暴露内部机密数据访问权限。 成本失控:Agent 在无人监督下产生巨额计算费用。 服务中断:关键 Agent 突然失灵,团队因缺乏持续评估而束手无策。
Agent 系统的自主性、状态性和动态执行路径带来了三大独特运维挑战:
动态工具编排:Agent 的执行“轨迹”难以预测,要求对工具版本、访问控制和可观测性进行严格管理。
可扩展的状态管理:在大规模部署时,安全、一致地管理 Agent 的会话与记忆,成为一个复杂的系统设计难题。
不可预测的成本与延迟:多变的执行路径导致成本和响应时间难以控制,需要智能的预算和缓存策略。
想成功应对这些挑战,必须建立在坚实的人员与流程基础之上。
2、AgentOps坚实地基的组成:人员与流程

从“全栈工程师”到“SRE”,再到今天的“Prompt工程师”,科技行业总热衷于为不断演进的职责发明新头衔。初期看似模糊,但最终都会沉淀为不可或缺的专业岗位,AgentOps 也不例外。
一流的技术若无合适的团队来构建、管理和治理,终将无效。成功的生产级 Agent 背后,必然是一个分工明确的专业团队和定义清晰的流程。

云平台团队:负责底层基础设施、安全和访问控制。 数据工程团队:负责构建和维护高质量的数据管道。 数据科学与 MLOps 团队:负责模型实验与端到端流水线的自动化。 机器学习治理:负责监督 ML 生命周期,确保合规与透明。
Prompt工程师:负责定义 Agent 的核心指令和预期行为。 AI 工程师:负责将 GenAI 解决方案规模化,构建评估、护栏等后端系统。 DevOps/应用开发者:负责构建与 GenAI 后端集成的用户界面。
有了合适的团队,组织便可以开始搭建技术支架,在 Agent 与客户见面前系统性地建立信任。
3、投产前置准备:在上线前建立信任
此阶段的核心原则是 评估门控部署 (Evaluation-Gated Deployment)。此原则以自动化的信心取代手动的猜测,确保任何 Agent 版本在触达用户前,都已通过全面的质量与安全检验。这一过程建立在三大支柱之上:评估、CI/CD 和安全发布。

“评估门控部署(Evaluation-Gated Deployment)”听起来很新潮,但其内核与云原生领域的“策略即代码”(Policy as Code)如出一辙。无论是用 OPA 限制 Kubernetes 的配置,还是用评估指标卡住 Agent 的发布,都是在用代码化的规则来治理一个复杂、模糊的系统。

传统软件测试无法衡量 Agent 的行为质量。评估不仅要看最终答案,更要审查其达成目标的完整“轨迹”。实现方式有两种:
手动“PR前”评估:适用于初期团队,在提交代码前本地运行评估,并将报告作为审查的一部分。
自动化流水线评估:适用于成熟团队,将评估集成到 CI/CD 流水线中,若关键指标低于阈值则自动阻止部署。
一个健壮的 CI/CD 流水线分阶段构建信心,尽早发现问题:

阶段一:合并前集成 (CI):在代码合并前触发单元测试、代码扫描和关键的 Agent 质量评估,提供即时反馈。
阶段二:合并后在 Staging 环境验证 (CD):代码合并后自动部署到 Staging 环境,进行负载测试、集成测试和内部用户测试。
阶段三:门控式生产部署:Staging 验证通过后,经人工审批,将同一构建产物部署到生产环境。
为降低现实世界中的风险,应采用渐进式发布策略:

金丝雀发布:先向小部分用户发布,监控后再逐步扩大范围。
蓝绿部署:在新环境验证无误后,瞬间切换流量,实现零停机回滚。
A/B 测试:对比不同 Agent 版本在真实业务指标上的表现,以数据驱动决策。
功能开关:通过开关控制新功能对特定用户的可见性。
为应对提示注入和数据泄露等 Agent 独有的攻击面,一套多层次的防御策略是不可或缺的。

策略定义与系统指令:将期望行为定义为 Agent 的核心“宪法”。
护栏、保障与过滤:在输入端拦截恶意提示,在输出端过滤有害内容,并在高风险操作时引入人工审核。
持续保障与测试:将安全测试(如红队演练)纳入评估体系,确保持续的安全性。
这条流水线不仅是部署工具,更是将生产洞察转化为已部署改进的引擎,构成了成熟 AgentOps 所定义的核心运营速度。
4、生产环境运维:持续的“观察-行动-演进”闭环

“观察-行动-演进”这个闭环,不就是 PDCA 循环理论换了个马甲吗?监控、应急响应、事后复盘,核心理念完全一致。唯一的区别是,这次我们管理的系统不仅会出故障,还会自己“创造”全新的故障模式。
Agent 上线后,静态监控已不再适用。取而代之的是一个持续的观察 (Observe)、行动 (Act) 和演进 (Evolve) 动态闭环,这是成功运营生产级 Agent 的核心 discipline。

观察 (Observe):Agent 的感知系统
可观测性是 Agent 的“感知层”,由三大支柱构成:
日志 (Logs):记录了“发生了什么”的详细事实。 链路 (Traces):解释了“为什么发生”,串联日志揭示因果路径。 指标 (Metrics):回答了“表现如何”,提供系统健康状况的宏观视图。
行动 (Act):实时干预的控制杆
“行动”是基于观察进行实时干预的手段,分为两类:
管理系统健康:通过水平扩展、异步处理和外部化状态管理来应对性能、成本和规模的挑战。
管理风险:遵循“控制-分类-解决”的安全响应剧本,通过断路器控制损害,人工分类调查,最后通过 CI/CD 部署永久修复方案。
演进 (Evolve):从数据到智慧的转化
“演进”是将生产洞察转化为长期改进的过程。它利用生产数据,主动让 Agent 变得更智能、更高效。而驱动这一过程的引擎,正是投产前建立的自动化 CI/CD 流水线。预生产阶段建立的质量门禁和安全发布策略,是让这种快速演进成为可能且安全的前提——它们是同一枚硬币的两面,共同将风险转化为速度。
当单个 Agent 的运维模式成熟后,下一个挑战便是如何让多个 Agent 协同工作。
5、超越单体 Agent:构建互操作生态系统

从 SOAP 到 REST 再到 GraphQL,技术圈总在寻找那个能一统江湖的“终极协议”。A2A 和 MCP 就是这个故事的最新篇章,试图为智能体(而不是数据)定义一套 RESTful API。历史告诉我们,这通常只是下一轮标准之争的开始。
当组织内存在数十个功能专门化但彼此隔离的 Agent 时,必须通过标准化实现互操作性,将它们转变为一个协作生态系统。
A2A 与 MCP 协议的角色区分
两个互补的协议是关键。它们的核心区别在于:MCP 用于与工具交互(执行简单的、无状态的功能),而 A2A 用于与其他 Agent 协作(达成复杂的、有状态的目标)。
简言之,MCP 的指令是“做这件具体的事”,而 A2A 的指令是“达成这个复杂的目标”。

A2A 协议实战:汽车维修店类比
A2A 通过“Agent 名片”实现服务发现。以下流程展示了 A2A 和 MCP 如何协同工作:
用户-to-Agent (A2A):客户向“店长”Agent 描述高阶问题:“我的车有异响”。
Agent-to-Agent (A2A):“店长”Agent 将任务委托给专业的“机械师”Agent。
Agent-to-Tool (MCP):“机械师”Agent 使用 MCP 调用其工具集:扫描错误码、查询维修手册。
Agent-to-Agent (A2A):“机械师”Agent 通过 A2A 联系外部的“零件供应商”Agent,查询库存并下单。

注册中心架构
当工具和 Agent 数量达到一定规模时,就需要建立注册中心来解决服务发现和治理问题。关键原则是:仅在规模需要时才构建,避免过早优化。
从人员流程到生产闭环,再到互操作协议,这些组件共同构成了完整的 AgentOps 生命周期。
6、以 AgentOps 跨越最后一公里

给旧瓶装上新酒,我们就得到了‘AgentOps’。无论是 DevOps、MLOps 还是 AgentOps,核心挑战始终未变:在自动化系统中管理复杂性与风险。唯一不同的是,现在的系统不仅会出故障,还会和你顶嘴。

AgentOps 并非线性流程,而是一个复合增长系统:人员与流程(第二节)是基石,支撑起建立信任的技术框架(第三节),进而驱动生产环境的运维闭环(第四节)。对单个 Agent 运维的精通,是构建未来互操作、多 Agent 生态系统(第五节)的先决条件。
投资 AgentOps 的短期回报是风险规避,但其真正的长期价值在于速度——将生产洞察在数小时内安全地转化为已部署的改进。

对于初学者:专注于基础,建立评估数据集,实施 CI/CD 流水线并配置监控。
对于规模化扩展者:将从生产洞察到部署改进的反馈循环完全自动化,并围绕互操作协议进行标准化。
AgentOps 不仅是完成项目的最后一步,更是开启下一代复杂、协作式多 Agent 系统,创造真正商业价值的第一步。



