Claude 官方万字白皮书解读:当 AI Agent 成为"数字员工",企业身份与权限到底该怎么建?
当大模型从"对话工具(Chatbot)"进化为"自主执行体(Autonomous Agent)",传统以人为中心的身份与访问管理(IAM, Identity and Access Management)、API 网关、堡垒机、安全编排自动化与响应(SOAR, Security Orchestration, Automation and Response)几乎全线失效。本文基于 Anthropic 2026 年 5 月最新发布的《Zero Trust for AI Agents(AI Agent 零信任)》eBook,结合国内企业落地 Agent 的真实场景,系统拆解 Claude 给出的"Agent 零信任"参考框架——风险图谱、设计原则、八阶段实施工作流,以及对国内企业建设 Agent 的几点思考与建议。一、为什么是现在?Anthropic 把"零信任(Zero Trust)"对准了 Agent
Claude 在白皮书开篇抛出了一句非常硬的判断:"Frontier AI models are compressing the timeline between vulnerability and exploit from months to hours, at a marginal cost measured in dollars." (前沿大模型正把"漏洞发现 → 利用(vulnerability → exploit)"的时间窗口从数月压缩到数小时,单次成本仅几美元。)这句话本身不新鲜,但当主语换成 AI Agent,含义就完全不同:·基础设施侧(Infrastructure):你的 Agent 跑在和其他业务一样的云上、容器里、数据库前,会被同一波"AI 加速的攻击(AI-accelerated offense)"打;·Agent 自身:它会自主解释目标、选择工具、执行多步操作。传统访问控制列表(ACL, Access Control List)拦不住它"在权限范围内被诱导着搞破坏",传统监控也跟不上"以坚持(persistence)代替漏洞利用(exploit)"的攻击方式。Anthropic 给出的答案是:回到零信任本源——"Never Trust, Always Verify(永不信任,始终验证);Assume Breach(假定已被攻陷);Least Privilege(最小权限)",但要在 Agent 时代重新落一遍。白皮书还引入了一个非常锐利的设计准则——"Impossible vs Tedious" Test(不可能 vs 麻烦 测试):
"Does this control make the attack impossible, or just tedious?" (这个控制让攻击变得"不可能(impossible)",还是只是"麻烦(tedious)"?)任何只是"让攻击麻烦一点"的控制(额外的跳板、速率限制、非标准端口、SMS 短信多因素认证 SMS-MFA)都会在 Agentic(智能体化)攻击者面前失效——因为它们拥有无限耐心,且单次尝试成本接近于零。能通过这道测试的,是硬件绑定凭证(Hardware-bound Credentials)、短效令牌(Short-lived Tokens)、密码学身份(Cryptographic Identity),以及"路径根本不存在"的网络隔离。二、Agent 时代的五大攻击面:传统安全为什么挡不住?
白皮书 Part II 把 OWASP(开放式 Web 应用安全项目)Top 10 for Agentic Applications 重新归纳为 5 类核心威胁:1. Prompt Injection(提示词注入)—— "最阴险的攻击"
·Direct Injection(直接注入):直接覆盖系统指令、用 Base64 / 十六进制(hex)等编码绕过过滤、用对人类无意义但对模型有效的"对抗性后缀(adversarial suffix)"。研究显示算法化攻击可达 100% 成功率,且可在多个模型族(model family)间迁移;·Indirect Injection(间接注入):把恶意指令藏在 Agent 处理的网页、邮件、文档里。Microsoft Research(微软研究院)证实大语言模型(LLM, Large Language Model)无法可靠区分"信息上下文(informational context)"和"可执行指令(actionable instructions)"。用户从未看到 payload(载荷),但 Agent 已经执行了。2. Tool & Resource Misuse(工具与资源滥用)
·Tool Poisoning(工具投毒):篡改 MCP(Model Context Protocol,模型上下文协议)的描述符(descriptor)、schema(结构定义)或 metadata(元数据),让 Agent 调用一个"看起来合法"的恶意工具。第一例在野(in-the-wild)恶意 MCP server 已被发现——伪装成正规邮件服务,悄悄复制所有发送邮件;·Tool Chaining(工具链滥用):把"内部 CRM(客户关系管理)工具"和"外部邮件工具"组合使用,组合出单个工具都做不到的危害(窃取客户数据)。每条命令都是合法凭证、合法二进制,主机端监控完全无感;·Rug Pull(抽地毯式替换)/ Resource Exhaustion(资源耗尽):合法工具被偷换成恶意版本;循环放大(loop amplification)攻击让 Agent 反复调用昂贵 API 制造拒绝服务(DoS, Denial-of-Service)或账单暴涨。3. Identity & Privilege Abuse(身份与权限滥用)
·Unscoped Privilege Inheritance(无作用域权限继承):高权限的"管理者 Agent(manager agent)"把任务下发给"工人 Agent(worker agent)"时,没有做权限收敛;·Confused Deputy Problem(混淆代理问题):低权限 Agent 把"看起来合法"的指令转给高权限 Agent,后者不验证原始用户意图就执行;·Memory-based Privilege Retention(基于记忆的权限滞留):Agent 缓存了凭证用于上下文复用,攻击者诱导它使用缓存的高权限凭证,跨会话越权。4. Supply Chain Risks(供应链风险)
·Model Poisoning(模型投毒):Anthropic 自家研究证明 仅注入 250 篇恶意文档 就能给 6 亿到 130 亿参数的 LLM 植入后门(backdoor),且能熬过监督微调(SFT, Supervised Fine-Tuning)和基于人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback);·MCP Server 后门:研究人员在主流平台发现约 100 个恶意 AI 模型,包括"加载即开启反向 Shell(reverse shell)"的样本;·Dependency Confusion(依赖混淆):PyTorch 依赖混淆攻击中,恶意包能在安装时窃取 SSH(Secure Shell)密钥。5. Memory & Context Poisoning(记忆与上下文投毒)
·RAG Poisoning(检索增强生成投毒):把恶意数据混入向量库(vector database),Agent 召回时被污染;·Shared Context Poisoning(共享上下文投毒):多租户(multi-tenant)共享上下文被攻击者通过普通交互悄悄"喂"进恶意内容,新用户会话继承毒上下文;·Long-term Memory Drift(长期记忆漂移):通过摘要、同伴 Agent 反馈逐步漂移记忆和目标权重——没有任何单次变更看起来恶意,但行为已经悄悄偏移。小结:传统 IAM 为"人 + 浏览器 Session(会话)"设计,传统 API 网关看不懂自然语言,传统 SOAR 假设"人能审完每条告警"。这套体系在 Agent 时代会从根本上失效。三、Claude 推荐的 Agent 零信任参考框架
白皮书把整套架构组织成 6 大能力域 × 3 个成熟度等级(Foundation 基础 / Enterprise 企业 / Advanced 高级),建议组织按层级递进推进:1. Agent Identity & Authentication(身份与认证)
"Identity and authentication form the foundation for every other security capability." (身份与认证是所有其他安全能力的地基。) | |
| 每个 Agent 一个唯一的、**密码学根植(cryptographically rooted)**的标识符;身份贯穿日志和访问请求 |
| X.509 证书 + 双向 TLS(mTLS, mutual TLS) + 证书锁定(Certificate Pinning) + 证书生命周期管理(轮转/吊销) |
| 硬件安全模块(HSM, Hardware Security Module)/ 可信平台模块(TPM, Trusted Platform Module)硬件绑定凭证+ 远程证明(Remote Attestation) + 机密计算飞地(Confidential Computing Enclave) |
⚠️ 关键观点:"轮转 API Key(API 密钥)已经不算合规的 Foundation"。任何能被 grep(文本搜索)出来的密钥都已经被攻击者用模型扫到了。短效令牌(Short-lived Tokens)才是新的最低标准(baseline)。2. Access Control & Privilege Management(访问控制与权限管理)
权限模型(permission model)递进路径:- Foundation:基于角色的访问控制(RBAC, Role-Based Access Control)+ 默认拒绝(Deny by default)。这是起点,不是终点;
- Enterprise:基于属性的访问控制(ABAC, Attribute-Based Access Control),融入时间、地点、数据敏感度、风险评分(risk score);
- Advanced:持续授权(Continuous Authorization),每一次动作都重新评估,威胁情报实时介入。
权限作用域(Privilege Scoping):- 静态权限 → 动态权限调整 → 即时授权 / 即足管理(JIT/JEA, Just-In-Time / Just-Enough-Administration)
OWASP 提出的新概念 "最小代理权(Least Agency)" 比"最小权限(Least Privilege)"更进一步:不只约束 Agent 能访问什么,更约束它能用每个工具做什么、多频繁、在哪里。3. Resource Boundaries(资源边界与隔离)
"Identity-based isolation is the primary control. Network segmentation is a backstop, not the primary boundary." (基于身份的隔离是首选控制;网络微隔离(network segmentation)是兜底,不是主要边界。)- Foundation:基于身份的隔离(每个 workload 自带密码学身份,目标服务只接受指定调用方);
- Enterprise:每个 Agent 容器化 + gVisor 沙箱 + 系统调用过滤(syscall filtering);
- Advanced:AMD SEV(Secure Encrypted Virtualization,安全加密虚拟化)/ Intel TDX(Trust Domain Extensions,信任域扩展)硬件隔离 + 微虚机(microVM) + 远程证明(attestation)。
4. Observability & Audit(可观测与审计)
最关键的两个指标,Claude 让你在投钱建检测之前先量出来:- Dwell Time(停留时间):异常发生到人感知到,间隔多久?
- Coverage(覆盖率):告警里真正被调查的比例是多少?
实现路径:完整动作日志(Action Logging)→ 不可篡改审计链(Immutable Audit Trails,含密码学校验)→ 实时流式接入安全信息与事件管理(SIEM, Security Information and Event Management)+ 跨 Agent 关联(correlation)。可追溯性(Traceability)也分级:请求 ID(Request ID)→ OpenTelemetry 分布式追踪(Distributed Tracing)→ 完整溯源链(Full Provenance Chains),含检索上下文、工具输出、推理步骤,支持回放(Replay)。
5. Behavioral Monitoring & Response(行为监测与响应)
- 基线(Baseline)建立:人工定义 → 自动学习 → 持续漂移检测(drift detection);
- 异常检测(Anomaly Detection):阈值告警 → 统计异常 → 机器学习(ML, Machine Learning)行为模型;
- 自动响应:"Automate the bookkeeping, NOT the decisions"(自动化记录工作,但不自动化决策)——模型来记录、调查、起草报告,人来做遏制、披露、客户沟通。
6. Input/Output Controls & Integrity(输入输出与完整性)
- Input Isolation(输入隔离):所有自然语言输入按不可信(untrusted)处理。Microsoft 的 Spotlighting(聚光技术) 把间接注入(indirect injection)成功率 从 50% 以上压到 2% 以下;
- Constitutional Classifiers(宪法式分类器):Anthropic 自家研究,阻断 95% 的越狱(jailbreak)尝试,且过度拒绝(over-refusal)率极低;
- 输出过滤(Output Filtering):个人身份信息(PII, Personally Identifiable Information)/ 凭证 / 敏感业务数据;高风险动作必须人在回路(HITL, Human-in-the-Loop);
- Configuration Integrity(配置完整性):版本化 → 数字签名 → 不可变镜像(Immutable Infrastructure) + 远程证明(attestation)。
四、八阶段实施工作流:把原则变成可落地的清单
如果说前面是"What(要什么)",Part IV 给的是"How(怎么做)"——一份面向架构师和工程师的可执行 SOP(Standard Operating Procedure,标准作业流程):Phase 阶段 | 关键产出 | Claude 给的反直觉建议 |
1.Identify Requirements(识别需求) | 合规边界、风险偏好对齐 | 让安全(security)/ 法务(legal)/ 合规(compliance)/ 业务(business)在建之前就坐到一起 |
2.Manage Supply Chain(管理供应链) | AI-BOM(AI 物料清单,AI Bill of Materials)——CycloneDX ML-BOM 扩展 + 密码学签名 | 用 OpenSSF Scorecard(开源安全基础评分卡)自动评分;用前沿模型审计 lockfile(依赖锁定文件)找冗余依赖;不可维护的小依赖让模型重写比继续用更安全 |
3. Define Agent Boundaries(定义 Agent 边界) | 允许/禁止行为(Approved/Prohibited Actions)+ 升级触发(Escalation Triggers)+ 作用域限制(Scope Limits)+ 影响半径(Blast Radius) | 不仅写"不许做",要用权限强制不让它能做;"Impossible vs Tedious"测试在此阶段执行 |
4.Defend Prompt Injection(抵御提示注入) | Input Isolation + Spotlighting + Constitutional Classifiers | 限制"谁/什么"能与系统交互,是最有效的"减面(attack surface reduction)"手段 |
5.Secure Tool Access(工具访问安全) | 工具白名单(Tool Allow-listing)+ 能力限制(Capability Restriction)+ 沙箱(Sandbox)+ 审批升级(Approval Escalation) | 静态 API Key 在 Foundation 都不达标;工具调用要用短效令牌 + 绑定调用方 Agent 身份 |
6.Protect Credentials(凭证保护) | 每 Agent 独立身份 + 短效 + JIT + ABAC + 硬件绑定 | 多个 Agent 共用一份凭证 = 失败的隔离;凭证不进代码,运行时(runtime)从密钥库(vault / secrets manager)注入 |
7.Safeguard Memory(记忆保护) | 记忆隔离 + 完整性校验 + 留存策略 + 版本化回滚 | 记忆要带源头标签 + 哈希;校验失败时拒绝并告警,不可让"可疑记忆"继续参与推理 |
8.Measure What Matters(度量与运营) | Dwell Time + Coverage + Explainability(可解释性) + Behavior Conformance(行为一致性) | "团队能不能放心休假?1 小时内能不能发现 Agent 失控?" 答不上来就回去补 Foundation |

五、"防御也要跑得动":Part V 的运营哲学
最容易被忽略的是 Part V——Defensive Operations at the Speed of Autonomous Threats(以自主威胁的速度运行防御)。Claude 的核心论点是:"Agentic adversaries 可能在人审完一条告警的时间里,攻击成百上千个系统。"应对方法不是"把人移出回路(loop)",而是把人移出 bookkeeping(记录工作),留在 decision(决策):- Triage Agent at the Front(前置告警初查 Agent):每条告警先让模型做结构化初查(query → think → report),人只看决策项;
- Agentic SOAR(智能化 SOAR):在已有 SOAR 之上加自适应能力,秒级会话终止(session termination)、凭证撤销(credential revocation)、动态访问调整;
- Map to MITRE ATT&CK(映射 MITRE ATT&CK 框架):优先补齐 Lateral Movement(横向移动)和 Credential Access(凭证窃取)的检测覆盖——这是 AI 加速攻击者的最大杠杆点;
- 5-Incident Tabletop(五事并发桌面演练):抛弃"一周一个 CVE(公共漏洞披露,Common Vulnerabilities and Exposures)"的传统演练,按同一周 5 起并发重排响应流程;
- Trust by Verification for Defensive Agents(防御侧 Agent 也要被验证):防御 Agent 也要被零信任——硬化(hardened)环境 + 限权 + 强 HITL。
六、对国内企业建设 Agent 的几点思考与建议
把 Claude 的框架拿来对照国内 Agent 落地的现实,最值得提前想清楚的是一件事:Agent 时代企业安全的命脉,不在更强的模型,而在更扎实的"权限治理(Permission Governance)"。模型再聪明,没有一套确定性的身份与授权底座,业务部门永远不敢把它放进生产;而一套设计正确的权限治理底座,能让"概率性的 LLM"安全地走进"确定性的业务"。以下九条建议,前五条聚焦权限治理,后四条覆盖记忆 / 运营 / 合规 / 防御侧。
1. 把"身份优先(Identity-First)"作为 Agent 时代的设计原则
国内大量 Agent 项目卡在概念验证(PoC, Proof of Concept)转生产,根因不是模型不够强,而是:- 调用日志里全是 "system" 或单一服务账号(service account),追责到人完全做不到;
- 静态 API 密钥(Static API Key)散落在代码、配置、Notebook、Wiki 里;
- 跨系统调用一律用全局 token(令牌)"假冒"用户,越权防不住、审计审不清。
正确的方向是把 Agent 当作"数字员工"管理:- 双模身份混管——把"人类身份(Human Identity)"和"非人类身份(NHI, Non-Human Identity)"放在同一身份枢纽里统一治理,复用既有 HR / Active Directory(活动目录)/ 身份提供商(IdP, Identity Provider)的主数据(master data),不另起一摊;
- 生命周期与 JML 联动——通过 SCIM 2.0(System for Cross-domain Identity Management,跨域身份管理系统)协议,把 Agent 的创建/运行/注销与员工的入职/转岗/离职(JML, Joiner-Mover-Leaver)流程绑定。员工一旦离职,**Kill Switch(一键熔断)必须能在秒级反向清理(De-provisioning)**其关联的所有 Agent 身份与凭证;
- 无密钥化(Secretless)落地——用 SPIFFE(Secure Production Identity Framework For Everyone)/ SPIRE 体系给每个 workload 颁发不可伪造的工作负载身份证(SVID, SPIFFE Verifiable Identity Document),结合密钥库(如 HashiCorp Vault)动态注入短效凭证,从代码里彻底剔除硬编码密钥。
2. 权限治理的核心:从单一 RBAC 升级到"多模型融合"
很多团队的权限模型还停留在 RBAC(基于角色),但 Agent 时代的动态代理关系(dynamic delegation)远远超出"岗位 + 角色"的静态描述能力。建议把权限引擎建成"多模型混合决策":| 模型 | 适用场景 |
RBAC(角色访问) | 保底,覆盖大部分静态岗位权限 |
ABAC(属性访问) | 引入时间 / 地点 / 数据敏感度 / 风险分等上下文 |
ReBAC(关系访问,Relationship-Based Access Control) | 描述"人 ↔ Agent ↔ 资源 ↔ 数据"的复杂图谱,解决"角色爆炸(role explosion)" |
TBAC(标签访问,Tag-Based Access Control)<o:page> | 对海量资源做批量化标签授权 |
引擎可以参考开源方案如 OpenFGA(细粒度授权框架) 或 OPA(开放策略代理,Open Policy Agent) 做技术底座。但不管选什么,权限治理团队的存在感比技术选型更关键——这是组织能力问题,不是工具问题。
3. 必须落实"三重交权(Triple Intersection)"判定,杜绝越权
Agent 时代最危险的不是"权限太大",而是"权限来路不清"。建议每一次 Agent 调用资源时,最终生效权限必须是三个集合的交集:最终权限 = Agent 能力上限 ∩ 调用者实际权限 ∩ 策略绑定范围只要其中任何一项不允许,就立即拒绝。这相当于在权限决策点(PDP, Policy Decision Point)做了强一致性裁剪——既不会因为 Agent 出厂权限大而越权,也不会因为调用者临时权限高而被借用。4. 显式委派(OBO)替代隐式凭证传递:让审计可追溯到"人"
不要让 Agent 直接持有用户的全局 Token——这是国内 Agent 项目"审计黑洞"的最常见根源。正确姿势:- 用 OAuth 2.1 Token Exchange(令牌交换,RFC 8693) 协议做显式委派;
- 颁发内嵌"人类用户 ID + Agent ID"双重身份的短效令牌(称作 OBO,On-Behalf-Of,代表用户);
- 强制执行动态降权(Downscoping):剥离冗余权限,有效期分钟级。
这样一来,每一次工具调用都能在日志里精确还原"Who(员工)→ Use(哪个 Agent)→ Access(哪个资源)→ Action(做了什么)"四元组,让追责到人不再是奢望。5. 高危操作必须人机协同(HITL),用标准协议而非自研流程
对于"删库 / 转账 / 外发 / 批量修改"等不可逆动作,Agent 应强制挂起执行流(suspend),通过 CIBA(Client-Initiated Backchannel Authentication,客户端发起的后通道认证)协议 向人类主管的移动端推送审批请求,二次确认后再下发"一次性执行令牌"放行。这看起来是给 Agent "增加麻烦",本质上却是把概率性大模型变成确定性业务的最后一道闸门。Claude 的白皮书反复强调:"Human-in-the-loop review is valuable at any tier and absolutely necessary for high-risk actions(人在回路审查在任何成熟度等级都有价值,对高风险操作绝对必要)"。
6. RAG 是国内最大盲点:必须做到"切片级 / 向量级"权限
国内 RAG 落地普遍只做"文件级权限",但这远远不够。Claude 强调要做到 Chunk 级 / Vector 级权限控制,并且必须在向量检索之前完成裁剪(pre-filter,前置过滤),而不是检索后再过滤(post-filter,后置过滤):- 前置过滤(务实过滤 Pragmatic Filtering):在向量数据库的查询条件里直接注入当前用户的 allowed_doc_ids(允许访问的文档 ID)白名单,物理上让 Agent 看不到不该看的内容;
- 后置过滤:召回后再剔除——只防君子不防小人,且容易被"回忆攻击"通过摘要绕过。
对金融投研、汽车主机厂、医疗等"信息隔离墙(Chinese Wall)"严苛的场景,这是不可妥协的设计要求。7. 策略执行点 / 决策点 / 管理点(PEP/PDP/PAP)解耦
Claude 强调零信任要做**策略执行点(PEP, Policy Enforcement Point)/ 策略决策点(PDP, Policy Decision Point)/ 策略管理点(PAP, Policy Administration Point)**三者解耦。落地建议:- PEP:放在 AI 网关层(如 MCP Gateway),做拦截、协议转换、凭证注入;
三者解耦后,业务系统零代码改造就能纳入治理,权限策略可以独立演进,不被业务发布节奏卡死。这条对国内"老系统遗留多 + 没法停机改造"的现实极为重要。8. 引入"身份稽查智能体(IGA Agent)"做主动治理
权限治理不能只靠人工评审(review)。建议用专门的智能体(身份治理与管理 IGA, Identity Governance and Administration)周期性扫描权限矩阵:- 自动发现职责分离冲突(SoD, Segregation of Duties):例如同一人既能"申请"又能"审批";
- 识别长期冗余授权、孤儿账号(orphan account)、僵尸 Agent;
这是把"被动审计(reactive audit)"升级为"主动治理(proactive governance)"——也是 Claude 白皮书里 Continuous Authorization(持续授权)真正能跑起来的前提。9. 防御侧 Agent 同样要被零信任 + 提前预留"可解释 + 可回放"接口
国内开始有团队用 Agent 自动化做告警初查、运维自愈——方向对,但防御 Agent 自己就是高价值目标。从 Day 1 起就要给它套同样的身份、权限、审计、HITL 关卡。否则一旦防御 Agent 被横向移动(lateral movement)拿下,后果比业务 Agent 失控更严重。同时,受监管行业(金融 / 医疗 / 政企)必须在架构早期就预留"可解释(Explainability)+ 可回放(Replay)"接口——能把任何 Agent 动作回溯到触发输入并解释为什么这么选。完整溯源链(Full Provenance Chains,含检索上下文 / 工具输出 / 推理步骤)应该与审计日志一起设计,事后再补会非常贵。最后别忘了 AI-BOM(AI 物料清单)—— 把模型来源、训练数据血缘、微调参数纳入软件供应链管理,配合 OpenSSF Scorecard 在持续集成(CI, Continuous Integration)里跑。
七、结语:Agent 时代的"水电煤",不在更聪明的模型,而在更扎实的权限治理
"The organizations best positioned for this shift will not necessarily be the ones with the most advanced AI. They will be the ones whose fundamentals are strong enough that AI-assisted scanning finds fewer bugs in the first place, and whose agent deployments were architected for breach from day one." (在这次范式迁移中处于最佳位置的组织,不一定是 AI 最先进的那些;而是那些底层根基足够扎实、AI 辅助扫描原本就找不出多少漏洞,且 Agent 部署从第一天起就按"已被攻陷"来设计的组织。)·身份让每个 Agent 调用都"有名有姓",把审计黑洞补上;·权限让 Agent 调用都"有边有界",把概率性大模型关进确定性业务安全笼。把 6 大能力域、8 阶段工作流当成自检清单(checklist),对照自己已经做了多少、还缺多少、Foundation 是否真的达标——这比研究下一个更花哨的 Agent Framework(智能体框架)更值钱。真正的护城河不在模型层,在治理层。推荐阅读原文:Anthropic 《Zero Trust for AI Agents》(2026-05-18) 配套参考:OWASP Top 10 for Agentic Applications · NIST SP 800-207(NIST 零信任架构标准)· NSA Zero Trust Implementation Guides(ZIGs,美国国家安全局零信任实施指南)· CISA Zero Trust Maturity Model(美国网络安全和基础设施安全局零信任成熟度模型)