
▍报告来源:清新研究团队
▍会员权益:每天50篇各领域最新的高质量报告
《智能体安全研究报告:从大模型安全到可控行动系统》由清新研究团队发布,围绕智能体(Agent)在生产环境中的安全挑战展开系统分析。报告指出,当AI从回答问题转向执行行动,安全重点也从模型内容治理扩展到运行时控制。核心目标不是让模型永不犯错,而是让错误不会无约束扩散。
核心判断:Agent安全边界远超聊天机器人
报告提出三个核心判断。第一,Agent的安全边界比聊天机器人大得多,因为它能调用工具、规划步骤、保持状态并影响外部系统。第二,只靠提示词无法保证工具调用和外部动作安全,需要权限、沙箱、审批等工程控制。第三,企业壁垒不在于单个模型,而在于安全控制平面的建设。Agent不是按钮,而是一个有权限的运行时系统。
风险本质变化:从内容风险到行动风险
报告强调,风险已从输出质量升级为行动安全。同一个错误,在聊天场景中只是错误回答,在Agent场景中可能变成邮件外发、数据改写或生产变更。Agent风险发生在模型生成和工具执行之间,运行时层成为主战场。高频风险包括目标劫持、工具滥用、身份滥用、记忆污染、上下文投毒等八个类别。
控制架构:七层防护与三类评测
报告提出七层控制架构:身份层要求独立身份和代理链路,权限层按任务授予而非用户全量继承,工具层需要schema、allowlist和执行前策略检查,上下文层要区分指令、用户意图和普通数据,记忆层支持写入规则和回滚,沙箱层隔离代码和文件执行,审计层记录每次工具调用和审批链。同时引入三类评测:任务成功、违规失败和恢复能力。
政策背景与行业共识
报告指出,Agent安全已进入国家级安全议题。CISA、NSA及多国网络安全机构发布Careful Adoption指导,强调分层防御、严格访问控制和渐进式部署。NIST的RFI重点关注能改变外部状态的AI Agent系统。OpenAI在2026年将沙箱执行作为Agent基础设施,强调受控环境对安全执行的重要性。MCP协议让工具接入更容易,但攻击面也相应扩大。
企业落地路线图
报告建议企业采取两条路线:业务价值路线和安全成熟度路线。先低风险试点,再逐步扩大自治范围。Agent治理应纳入IT、安全和业务共同管理,避免只做提示词防护、让Agent继承用户全量权限、先接业务系统后补审计等常见误区。优先处理资金、医疗、法律、身份权限和生产变更等高风险场景。
总结:Agent安全是生产系统安全
报告认为,Agent安全不是科普概念,而是生产系统安全。最小权限、工具治理、沙箱执行、可审计日志是关键支撑。能力会商品化,但安全部署能力不会自动商品化。越早建立控制平面,越能更快释放Agent价值。























