2026年3月,全国网安标委发布《智能体安全标准化技术研究报告》(TC260-TR-005-2026)。这份报告有一个很重要的意义:它不是单纯讨论“大模型安不安全”,而是开始把“智能体”作为一个独立对象来研究。

这背后的判断很明确:当模型开始具备调用工具、管理记忆、拆解任务、与外部环境持续交互的能力后,安全问题就不再只是“说错一句话”这么简单了,而是会扩展到权限、数据、协议、执行链路,甚至现实世界。
本文重点讲三个问题:智能体到底是什么、智能体可以怎么分、智能体主要会面临哪些风险,以及应该怎么防。
智能体到底是什么
报告对“智能体”的定义很直接:它是能够感知环境、理解信息,并作出决策与行动的人工智能代理。它的形态主要包括两种,一类是软件形态的“软智能体”,另一类是有物理实体的“硬智能体”。前者比如办公助手、代码助手、手机助手,后者则更接近机器人、无人机、自动驾驶这类系统。
如果再往下拆,报告给出的智能体框架可以概括成四个核心能力:
第一,感知能力。智能体不只是被动接收一句提示词,它会感知用户输入、环境信息,甚至可能接入多模态数据。也就是说,它看到的世界比传统聊天模型更复杂。
第二,规划能力。智能体会把一个目标拆成多个子任务,再决定先做什么、后做什么、需不需要调用工具、是否要和其他智能体协作。也就是说,它不只是“回答”,而是在“安排行动”。
第三,记忆能力。报告特别强调了短期记忆和长期记忆。短期记忆负责当前上下文,长期记忆则可能通过向量数据库等方式保存历史行为、经验和用户偏好。这使得智能体更“连续”,但也意味着风险更“持久”。
第四,行动能力。这是智能体和普通模型最不一样的地方。它不只是生成文本,而是能调用外部工具、访问系统资源、与其他智能体交互,最终把“决策”变成“动作”。这一步一旦出问题,影响就可能从认知空间进入现实空间。

所以,理解智能体最简单的方法不是把它看成“更聪明的聊天机器人”,而是把它看成一个具备感知—规划—记忆—行动闭环的系统。也正因为这样,它的安全问题会明显多于普通大模型。
智能体可以怎么分类
这份报告对智能体做了比较系统的分类,不只按“长什么样”分,也按“怎么决策”“怎么协作”“处在哪一层”来分。
1. 按产品形态分:软智能体和硬智能体
软智能体是数字世界中的软件实体,比如智能客服、个人办公助手、代码生成代理、手机助手。硬智能体则是带物理实体的产品,比如工业机器人、服务机器人、无人机、智能驾驶车辆。
这也是为什么当前安全研究会优先聚焦软智能体。因为它是今天大模型落地最主流、最成熟、需求最迫切的一种形态。
2. 按协作关系分:单智能体、多智能体、人机协作
单智能体系统强调独立运作,适合目标明确、边界相对清晰的任务。多智能体系统则强调协同和信息交互,通过多个智能体共同完成复杂问题。还有一类是人机协作系统,也就是人和智能体共同参与任务推进。
这个分类很关键。因为单智能体的风险,很多时候还停留在“它自己会不会出错”;而多智能体的风险,会变成“它们之间会不会相互放大错误”。
3. 按决策依据分:确定性和非确定性
确定性智能体更像规则系统,行为可预测。非确定性智能体则更偏数据驱动,灵活性更强,但输出也更难完全预测。
这其实对应了一个很现实的问题:越智能,通常越难完全穷举它的行为边界。
4. 按决策过程分:从反射型到学习型
报告还列了简单反射型、基于模型的反射型、基于目标的、基于效用的、学习型等不同类型。简单理解就是:有些智能体只会按规则立刻反应;有些会结合历史信息;有些会为了目标优化路径;有些会在多个目标之间权衡;还有些能通过反馈持续学习。
越往后走,系统的灵活性越强,安全治理难度也越高。
5. 按所处层次分:操作系统智能体和应用智能体
操作系统智能体可以直接操作设备底层和上层应用。应用智能体则更多是面向具体业务场景,调用外部软件工具完成任务。
这个分类背后其实对应的是“权限层级”差异。一个系统级智能体如果失控,影响范围往往比一个应用层智能体更大。
智能体风险的4个复杂纬度
报告给出的一个关键判断是:相比普通大模型,智能体扩展了能力边界,因此也引入了新增风险。
大模型更多是“你问我答”;智能体则是“我理解—我规划—我记住—我去做”。
于是,风险就会从单纯的内容问题,扩展到几个维度:
一是时间维度拉长。因为有记忆,所以风险可能长期存在;二是空间维度扩大。因为能调用工具、接触环境,所以风险可能扩散到系统外部;三是跨模块传导。一个感知层的小问题,可能一路传到规划、行动和交互层;四是群体效应增强。在多智能体系统里,一个错误可能不是“一个错误”,而是一串错误。
这也是报告为什么专门提出“智能体安全风险框架图”。在这个框架里,风险不再是散点式的,而是和感知、规划、记忆、行动、交互、环境基础设施等模块对应起来看。

11 类主要风险
报告最终汇总出 11 类智能体安全风险,这是全文最核心的内容之一。
1. 智能体挟持(AIA01)
通过提示词注入、越狱、多轮诱导等方式,让智能体突破既有边界,泄露敏感信息或执行恶意行为。
2. 数据泄露、篡改和投毒(AIA02)
这类风险贯穿整个生命周期,包括训练数据含敏感信息、运行日志泄露隐私、数据被投毒触发后门等。
3. 供应链与插件投毒(AIA03)
智能体越来越依赖第三方插件、依赖库、镜像、模型权重和工具链,这意味着供应链一旦被污染,整个系统都可能被带偏。
4. 身份仿冒和越权访问(AIA04)
包括伪造身份、令牌劫持、过度授权、横向移动等问题。简单说,就是“它不该有的权限有了,不该进的系统进去了”。
5. 幻觉和策略性拒绝(AIA05)
这里不只是传统意义上的“胡说八道”,还包括因错误判断导致误操作,或者对合规请求进行不合理拒绝。
6. 多智能体级联幻觉扩散、冲突死锁和资源超载(AIA06)
这是多智能体场景中特别典型的一类风险:一个智能体出错,其他智能体接着错;目标互相冲突,系统就可能卡死;资源调度失控,还可能把系统拖垮。
7. 协议风险(AIA07)
如果智能体之间的通信协议或协同协议本身存在漏洞,那么再聪明的系统也可能在底层交互上出问题,比如一致性被破坏、消息被篡改。
8. 运行环境风险(AIA08)
特别是在终端、弱计算设备或隔离不充分的环境里,可能出现容器逃逸、沙箱绕过、侧信道攻击等问题。
9. 人工监管与可追溯性失效(AIA09)
如果日志不完整、审计链缺失、决策过程黑盒化,那么出了问题就很难查、很难管、很难追责。
10. 记忆幻觉和操纵(AIA10)
这类风险非常值得关注。一个是记忆检索偏差,把噪声当记忆;另一个是记忆被故意污染,比如通过伪造聊天记录、上下文、向量库内容,影响后续决策。
11. 工具滥用(AIA11)
攻击者通过提示或命令诱导,让智能体滥用自己接入的工具,执行不该执行的操作。模型会“说错话”,而智能体会“做错事”,风险级别显然更高。
如果把这 11 类风险再收束一下,其实可以理解成五个大方向:
第一类,是输入和认知风险。比如挟持、注入、越狱、幻觉。
第二类,是数据和记忆风险。比如泄露、投毒、记忆污染。
第三类,是身份、权限和工具风险。比如身份仿冒、越权访问、工具滥用。
第四类,是协同和协议风险。比如多智能体级联错误、通信协议漏洞。
第五类,是环境和治理风险。比如运行环境脆弱、日志审计缺失、可追溯性失效。

这些风险应该怎么应对
报告没有只停留在“列问题”,而是给出了比较完整的应对思路。核心可以概括成六个方向。
1. 感知安全
对输入内容做安全评估,识别恶意提示、危险意图和不安全请求;如果智能体要接收外部工具或其他智能体返回的信息,也要先做安全验证再使用。对于被调用方,还要做身份校验、权限控制、速率限制和日志留存。
2. 记忆安全
要能识别记忆内容本身是否安全,保护记忆的完整性,防止非法篡改;同时结合异常检测、会话隔离、定期清理、快照取证等手段,降低记忆污染和记忆操纵风险。
3. 规划安全
规划结果不能只靠模型“自己觉得对”,而要有验证机制、边界约束和高风险人工确认机制;同时最好能提供一定的解释性,让外部知道它为什么这么决策。
4. 行动安全
要预先规定智能体能做什么、不能做什么,调用工具前要校验对方身份,整个调用过程遵循最小权限原则,对敏感调用做加密和完整性保护,并持续监控执行进度。
5. 交互安全
智能体与外部环境、其他智能体之间的通信,要采用加密传输、协议完整性校验、访问控制和网络防护;对发出的请求可以加数字签名,确保不可抵赖。
6. 数据安全贯穿全生命周期
包括数据完整性校验、数据分级分类、敏感信息脱敏或匿名化、最小授权访问控制、定期审计和数据备份。报告强调,这不是某一个环节的工作,而是贯穿智能体整个生命周期的要求。
如果对应到 11 类风险,报告给出的措施也很清晰:
AIA01 重点是输入过滤、提示词工程防护、模型对齐和恶意提示检测;
AIA02 重点是加密传输、分级分类、脱敏、差分隐私和审计;
AIA03 重点是第三方组件审查、模型完整性校验、漏洞扫描和沙箱隔离;
AIA04 重点是双向身份认证、细粒度访问控制、跨代理权限隔离;
AIA05 重点是规划结果验证、决策边界管理和人工确认;
AIA06 重点是资源配额、速率限制、行为审计和多智能体共识验证;
AIA07 重点是安全通信协议和协议审计;
AIA08 重点是权限限制、沙盒隔离和脚本行为监控;
AIA09 重点是全生命周期日志记录、监控与审计;
AIA10 重点是记忆内容验证、异常检测和定期清理;
AIA11 重点是工具使用监控、指令过滤、行动范围约束和调用频次限制。
结语
随着智能体从“会聊天”走向“会做事”,安全问题一定会从内容风险扩展为系统风险。全国网安标委这份报告的意义,就在于把这种变化提前系统化地梳理出来了。
对企业来说,这份报告至少传递了一个很明确的信号:
未来做智能体,不只是拼能力,更要拼边界、拼治理、拼可控。谁能先把安全框架搭起来,谁才能真正把智能体用进关键业务。


