推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  减速机  链式给煤机  履带  无级变速机 

智能体安全分类分级研究报告(模安局,2026.3)

   日期:2026-03-04 22:49:44     来源:网络整理    作者:本站编辑    评论:0    
智能体安全分类分级研究报告(模安局,2026.3)

智能体(agent)从安全视角看,关键不在“它能说什么”,而在“它能做什么、能接触什么、能持续多久”。经典人工智能教材将 agent 抽象为“在环境中感知并采取行动的实体”,风险根源因此天然与“环境可控性/可写性”绑定。近年的 LLM 智能体进一步把“推理(reasoning)+行动(acting)”耦合在同一条轨迹里,并通过工具调用与外部系统交互,从而把攻击面从“内容/对话”扩展到“工具/权限/执行链”。

本报告提出一套面向安全治理的分级体系:以“两层分类逻辑”为骨架——第一层按“环境影响/控制力”(从只输出到可执行/可改系统)划分;第二层按“自主性/运行时长”(从短程交互到长程自治/多会话记忆)细分。分类论证主要基于 OWASP 对 LLM 应用风险的归纳(如 Prompt Injection、敏感信息泄露、插件设计不安全、过度代理/过度自治等)以及 英国国家网络安全中心将 Prompt Injection 视为“confused deputy/先天可混淆代理”问题的观点。

在此基础上,本报告设计了一个 0–100 的“安全风险评分模型”(分数越高风险越高),包含五个可量化子项:内容风险、数据风险、工具/权限风险、执行/代码风险、长期自主性风险,并给出权重、打分规则、分级阈值。评分不仅用于“贴标签”,更用于驱动差异化控制:例如对可执行代码的编程智能体,应优先落地沙箱、最小权限、命令/网络策略、供应链治理与审计;对长程自治型,应额外要求任务边界、可中断性、关键动作强制人工确认与持续监控。

最后,报告对 6 个典型智能体形态(AISearch、AI 生成漫剧、Manus、Cursor、Claude Code、OpenClaw)给出基于公开信息的示例评分、等级与安全建议;若产品细节未公开/未明确,均标注并说明对评分的影响。

智能体定义与范围

从安全分级的角度,需要把“智能体”从一般聊天/生成系统中区分出来。一个可操作的定义是:智能体 = 目标驱动(接收任务并规划步骤) + 可行动(通过工具/接口对环境产生影响) + 可累积状态(记忆/会话/文件)在一定程度上成立的系统。该定义与经典 agent 模型中“在环境中感知并行动”的抽象相一致,只是现代 LLM 智能体把“行动”具体化为工具调用(检索、文件、Shell、API、插件等)。

本报告覆盖的“智能体”范围,按能力与风险面,包含以下典型形态(示例产品来自公开文档/页面;若细节缺失以“未公开/未明确”标注):

搜索/检索型智能体(AISearch 类):以检索增强与总结为主,通常以只读方式访问网页/知识库并生成答案,主要风险集中在 Prompt Injection、RAG/检索投毒导致的错误引导与潜在数据外带。注:AISearch 在业界可能对应多种实现(浏览器检索、企业知识库 RAG、带轻量工具调用等);若具备写入/执行能力,应按更高类别重新分级(未公开/未明确)。

内容创作型智能体(AI 生成漫剧类):主要输出文本/图像/音视频等内容,通常不直接操作外部系统。其合规与内容安全风险在中国监管语境下尤为关键(违法信息、深度合成标识、未成年人保护等),但对“运行环境”的直接破坏性一般低于可执行类。注:若支持“一键发布/自动投放/自动分发”,内容风险与环境风险都会上升(未公开/未明确)。

自主任务执行型通用智能体(Manus 类):官方文档将其描述为“自主通用 AI agent”,类比“有自己电脑的虚拟同事”,并强调其在“完整沙箱虚拟计算机”内运行,具备互联网访问、持久化文件系统、可安装软件与创建工具等能力。

编程/代码智能体(Cursor、Claude Code 类):面向代码库与开发工具链,典型能力包括读代码库、改文件、运行命令、与 git/CI 集成、(通过连接器)访问外部数据源等。例如 Claude Code 文档明确其“读取代码库、编辑文件、运行命令并与开发工具集成”,并包含与 MCP 连接外部数据源、Hooks 运行 Shell、并行多 agent 等能力。Cursor 侧官方博客也将其 Agent 能力描述为可生成文件、运行终端命令、搜索代码库,并提示 CLI 能读/改/删文件、执行经批准的 Shell 命令且安全防护仍在演进。

多通道个人助理/网关型智能体平台(OpenClaw 类):OpenClaw 官方文档将其定位为“自托管网关”,把 WhatsApp/Telegram/Discord/iMessage 等消息通道连接到“AI coding agents”,并强调 sessions、memory、多 agent 路由、插件通道与移动端节点等“agent-native”能力。同时其安全文档明确:它遵循“个人助理信任模型”,不是面向多租户/对抗用户共享的安全边界;若多人可对同一 tool-enabled agent 发消息,本质上共享了同一组“委托工具权限”。

此外,工具连接标准(如 MCP)会显著改变智能体的“权限半径”。Anthropic 将 MCP 描述为“让 AI 工具与外部数据源/工具建立双向连接的开放标准”,而 MCP 规范与安全最佳实践也强调:该协议带来任意数据访问路径与潜在代码执行路径,需要系统性安全设计。

分类分级框架

本报告采用“两层分类逻辑”,原因是:在智能体系统里,风险增量的主要来源通常不是“生成质量”,而是(1)对环境的可写性/控制力(是否能把输出变为动作),(2)自主性/运行时长(是否能在更长时间里积累上下文、触发更多动作、被注入更多不可信输入)。

分类层级示意(环境控制力 × 自主性)

该结构与 OWASP 强调的“过度代理/过度自治(Excessive Agency)”“不安全插件设计”“敏感信息披露”等风险项是一致的:当系统同时具备工具能力与较高自主性时,Prompt Injection 等输入操控更容易被“放大”为真实破坏。

六类可落地分类

为了便于实际治理,本报告把上述二维空间收敛为 6 类(每类给出典型特征与代表产品;代表产品以公开信息为依据):

类别
环境控制力
自主性/运行时长
典型特征(安全侧可观测)
代表产品/形态(示例)
内容创作型
E0
S
输出文本/图像/视频等;无外部写入;风险以内容合规、误导为主
AI 生成漫剧(未公开/未明确是否带自动分发)
检索问答型
E1
S
访问网页/知识库并总结;理论上只读;易受间接注入/检索投毒影响
AISearch(形态类;实现差异大)
受控工具编排型
E2
S
多步工作流;调用外部 API/系统;关键动作应可审批;权限边界清晰性决定风险上限
轻量个人助理/工单助手(泛型)
编程执行型
E3
S
读改代码库、运行 Shell/测试、git 操作;常见“审批疲劳”;需沙箱/命令策略
Cursor、Claude Code
自主工作台型
E3
L
自主规划与长任务执行;具备虚拟机/沙箱、持久化文件系统、可安装软件/造工具
Manus
多通道网关与生态型
E2/E3
L
多通道入口、sessions/memory、多 agent、插件/技能生态;若多人可触达则变“共享委托权限”
OpenClaw

这里将 Cursor/Claude Code 归入“编程执行型”,是因为其核心风险来自代码/命令与开发链路;而 Manus 归入“自主工作台型”,因为其文档强调“可在沙箱虚拟电脑里独立完成端到端任务并持久化上下文”。 OpenClaw 单独成类,是因为它更像“把 agent 权限带到真实消息通道上的网关”,且官方明确其信任模型不是多租户边界。

关键风险维度与具体威胁场景

本节按“六类智能体”逐类给出:内容风险、数据风险、工具/权限风险、执行/代码风险、长期自主性风险,并配具体威胁场景。总体上,OWASP Top 10 for LLM/GenAI Apps 覆盖了 Prompt Injection、敏感信息披露、供应链风险、不安全插件设计、过度代理等通用风险;NCSC 进一步提醒 Prompt Injection 更像“confused deputy”,应从系统设计上降低残余风险与影响面。

内容创作型(E0×S)

  • 内容风险:可能生成违法违规、虚假误导、深度伪造等内容;中国监管要求服务提供者防范违法内容、进行深度合成标识、完善投诉处置等。

  • 数据风险:通常仅处理用户提示词与素材;主要关注个人信息/著作权素材上传与留存(若平台允许上传训练/二次利用需另行评估,未公开/未明确)。

  • 工具/权限风险:一般无外部工具写入,但若支持一键发布到社媒/内容平台则会升级为 E2(未公开/未明确)。

  • 执行/代码风险:通常无。

  • 长期自主性风险:通常低;若存在定时发布/批量生成则会提高“规模化危害概率”(未公开/未明确)。

  • 典型威胁场景:攻击者通过“题材/提示词诱导”绕过审核,批量生成并传播虚假信息或违规内容;或利用多模态生成造成深度伪造与诈骗链路的一环。

检索问答型(E1×S)

  • 内容风险:核心是“错误/幻觉/误导性总结”,并可能造成过度依赖。OWASP 在风险集中专门列出与误导相关的风险项(不同版本表述略有差异)。

  • 数据风险:用户查询可能包含敏感信息;此外,若检索链路访问企业知识库,数据面显著扩大(未公开/未明确)。

  • 工具/权限风险:虽大多只读,但“间接 Prompt Injection(来自网页/文档的隐藏指令)”会操控总结过程,甚至诱导系统把敏感信息拼进输出或触发外带。

  • 执行/代码风险:一般无,但当检索与工具调用/执行串联时,风险会跨越到 E2/E3。

  • 长期自主性风险:短程为主;若是“持续监测/定时报送”则变为 L,注入窗口更大(未公开/未明确)。

  • 典型威胁场景:对 RAG 系统“投毒/后门化检索器”,使特定触发条件下输出被攻击者操控;学术研究已讨论针对检索增强的提示注入与后门攻击思路。

受控工具编排型(E2×S)

  • 内容风险:除误导外,更危险的是“输出被当作指令”进入后端(OWASP 将“输出处理不当/不安全插件设计”视为关键类风险)。

  • 数据风险:常连接工单、邮件、CRM、知识库等,敏感信息披露风险显著上升;NCSC 指出 AI 系统需与既有网络安全/风险管理并行,把“敏感数据不泄露给未授权方”作为目标之一。

  • 工具/权限风险:当 agent 拥有“可写工具”(发邮件、改工单、下单、删文件)时,Prompt Injection 会从“把回答写坏”升级为“用你的权限做坏事”。NCSC 将其类比为“高权限组件被诱导代用户/攻击者执行动作”的 confused deputy。

  • 执行/代码风险:取决于是否可执行脚本/宏/工作流。

  • 长期自主性风险:若工具编排引入计划任务或多 agent 协作,会出现“二阶注入/跨 agent 权限放大”的系统性风险(研究与业界案例均提示需要职责隔离与监督执行)。

  • 典型威胁场景:攻击者在外部数据源(网页、工单描述、邮件正文)埋入间接注入指令,诱导 agent 调用高危工具(例如导出客户列表、删除工单记录、向外部地址发送文件)。

编程执行型(E3×S)

  • 内容风险:除了生成恶意代码/错误修复带来的逻辑缺陷,更现实的是“把危险命令包装成看似合理的构建/测试步骤”。

  • 数据风险:代码库本身往往包含商业机密、密钥、凭证与内部接口信息;一旦被间接注入引导外带,后果严重。

  • 工具/权限风险:编程智能体通常可调用 Shell、git、CI/CD 或连接器。Claude Code 明确以“权限系统”为核心:敏感操作需显式批准,并提供分层权限规则(read-only、bash、file modification 等)。

  • 执行/代码风险:这是该类的主风险。Cursor 官方博客提醒其 Agent CLI 可读/改/删文件并执行经批准的 Shell 命令,且安全防护仍在演进;Cursor 也强调通过“agent sandboxing”缓解风险与减少审批中断,但指出审批会导致“approval fatigue”。

  • 长期自主性风险:通常低于“自主工作台型”,但当并行运行多个 agent 时,审批疲劳会放大误批准概率;Cursor 与 Anthropic 都把这一点作为推动沙箱化的重要动因。

  • 典型威胁场景(工具链层面的注入与劫持):学术研究已展示针对“工具选择”的提示注入:攻击者可通过污染工具文档/描述,操控 agent 的检索与选择阶段,诱导其持续选用恶意工具并执行未授权动作。

  • 典型威胁场景(现实漏洞链路):安全研究披露 Claude Code 可被“恶意仓库配置/Hook/MCP 配置”等机制触发 RCE 或 API Key 外带,并给出 CVE 与修复信息(细节随版本变化,应以官方安全公告为准)。

自主工作台型(E3×L)

  • 内容风险:交付物通常是报告、PPT、网站等“可直接使用的成品”,风险从“误导内容”扩展到“误导决策/误导执行”。

  • 数据风险:Manus 文档强调其具备持久化文件系统与长任务上下文,且可通过 API“管理文件、触发任务并接收结果”,数据生命周期更长、聚合度更高。

  • 工具/权限风险:Manus 工具页明确其 agent 工具可访问“浏览器与文件系统”,并执行任务、创建文件;这意味着任何输入操控一旦绕过边界,就可能落到真实文件与网络行为上。

  • 执行/代码风险:即便在沙箱中运行,可安装软件/自造工具也会引入供应链与执行面风险;NCSC 的安全 AI 开发生命周期指南将“prompt injection、数据投毒、供应链与沙箱隔离”等作为需要系统化控制的点。

  • 长期自主性风险:长任务与持久化状态意味着“攻击者可多轮迭代地找漏洞”,且注入窗口更长;NCSC 认为应关注降低残余风险与影响,而不是期待一次性消除注入。

  • 典型威胁场景:攻击者通过“资料包/网页/附件”埋入间接注入,诱导 agent 在长链路中逐步收集本地文件、拼接成报告并外发,或安装带后门的依赖以便后续继续控制。

多通道网关与生态型(E2/E3×L)

  • 内容风险:多通道意味着更接近“自动化传播面”;同样的错误/被操控内容更易扩散。

  • 数据风险:OpenClaw 定位为“个人助理网关”,会链接真实消息账号与会话/记忆;其安全文档明确“允许的发送者可以驱动同一权限集合”,若共享工作区(如 Slack)就存在真实的“委托工具权限”风险。

  • 工具/权限风险:OpenClaw 具备 plugin channels、multi-agent routing、mobile nodes 等能力;其威胁模型把“网关、通道集成、技能市场、MCP 服务器”等都纳入范围,并强调信任边界识别。

  • 执行/代码风险:现实世界已出现“技能/插件生态投毒”案例:媒体与安全研究报道 OpenClaw 的技能市场出现恶意技能/恶意指令,诱导用户执行命令或窃取凭证;同时 OWASP 将供应链风险、插件设计不安全列为重要类目。

  • 长期自主性风险:always-on + sessions/memory + 多入口,会显著扩大“注入窗口”和“误触发概率”;其官方安全文档也指出不存在“完美安全”配置,治理目标是明确谁能对 bot 说话、bot 能在何处行动、能触达什么资源,并从最小权限起步。

  • 典型威胁场景:攻击者在共享聊天群中发送“看似正常的任务请求/链接/附件”,利用间接注入引导 agent 调用 exec/浏览器/文件工具进行外带;或通过技能供应链植入恶意逻辑,在后续多次会话中持续窃取数据。

安全评分模型

本报告给出一个“面向治理落地”的 0–100 风险评分:分数越高表示需要越强的隔离/审计/审批治理。模型设计原则是:把 OWASP 归纳的核心风险面(注入、敏感信息、插件/供应链、过度代理等)与 NCSC 强调的“先天可混淆代理”问题,映射为可衡量的五个维度,并让“工具/执行/自治”获得更高权重。

评分流程示意

I[收集证据: 能力/权限/运行形态/部署边界] S1[五维子项打分] W[按权重加权求和(0-100)] L[映射等级 L1-L4] G[生成治理要求: 沙箱/权限/审计/红队/上线门槛] R[持续复评: 版本更新/权限变更/事故与告警驱动]

五维度与权重

  • 内容风险(10%):输出类型与传播链路带来的合规/误导风险。中国监管对生成式 AI 内容合规、标识与处置提出要求,可作为该项治理基线。
  • 数据风险(25%):智能体可接触的数据敏感度、持久化程度、跨系统聚合程度。
  • 工具/权限风险(25%):是否具备写入型工具、是否跨系统、是否存在共享委托权限、授权模型是否可控(如分层权限、允许/询问/拒绝规则)。
  • 执行/代码风险(25%):是否可执行命令/脚本、写文件、安装软件、触达 CI/CD 或生产资源;以及供应链/扩展生态带来的可执行面。
  • 长期自主性风险(15%):是否长程运行、是否有记忆/会话树/计划任务/多 agent;以及审批疲劳导致的“形式上有人审、实际上易误审”。

评分细则表(示例量表)

评分采用“分档”而非精确公式,目标是让评审在缺少完美信息时仍可落地。每一维先选档位,再按权重折算。

维度(满分)
低风险档(0–25%)
中风险档(25–50%)
高风险档(50–75%)
极高风险档(75–100%)
内容风险(10)
内部生成、不可外发或强审核
面向用户文本/图像生成,有限传播
可多模态生成且易传播/误导
自动发布/批量分发或与真实身份绑定传播
数据风险(25)
仅公共数据/短暂输入
有用户输入与少量上下文
接触组织内部文档/代码库/业务数据
接触密钥/凭证/财务/大规模个人信息或强持久化聚合
工具/权限(25)
无工具或只读工具
有少量写入工具且逐次审批
多系统写入工具/连接器,权限较宽
共享委托权限、跨系统高权限、可自动执行高危动作
执行/代码(25)
不写文件/不执行
写文件或受限执行(隔离环境)
运行 Shell/安装依赖/操控开发链路
具备插件市场/技能生态或可触达生产资源/部署
自主性/时长(15)
单轮/短任务
会话内多步但强人工驱动
可长任务、多会话记忆、部分后台
长程自治、计划任务/多 agent,审批疲劳显著

风险等级阈值与治理强度

  • L1(0–20):低风险,允许默认上线;以内容合规与基础日志为主。
  • L2(21–45):中风险,要求工具边界清晰、最小权限、输入输出审查与基础速率限制。
  • L3(46–70):高风险,要求沙箱/隔离、命令与网络策略、密钥治理、审计留痕、上线前红队测试。
  • L4(71–100):极高风险,要求强隔离(独立账号/主机/环境)、关键动作强制人工确认、多层检测与持续监控,并限制共享可达性(避免“多人共享同一委托权限”)。

典型智能体评分示例与建议

说明:以下打分基于公开信息与“典型部署假设”。若某产品在你的实际落地中具备额外能力(例如自动发布、直连生产、共享账号、多租户对抗场景),应上调对应分项。对 AISearch、AI 生成漫剧这类“形态名”由于实现差异大,按“常见最小实现”计分,并标注未公开/未明确点。

与表格相匹配的关键依据(节选):

  • Manus 被定位为可在“沙箱虚拟电脑”里计划与执行长任务,具备互联网访问与持久化文件系统,并通过 API 触发任务、管理文件。
  • Cursor 明确其 Agent 可生成文件、运行终端命令,CLI 能读/改/删文件并执行经批准的 Shell 命令;且其官方文章强调审批疲劳与沙箱化的权衡。
  • Claude Code 文档提供分层权限系统与安全策略(如默认阻断部分高危抓取命令、敏感操作需批准),并讨论通过沙箱减少审批疲劳。
  • OpenClaw 官方安全文档强调它不是多租户对抗边界,若多人可对同一 agent 发消息,本质是共享委托权限;同时现实中出现技能生态被用于恶意扩展/窃取数据的案例。

缓解措施与治理建议

治理思路建议采用“分级即分控”:分类与评分输出的不是一个标签,而是一套强制控制清单审计要求。该思路与 NIST AI RMF 的“GOVERN–MAP–MEASURE–MANAGE”持续式风险管理框架一致:先治理与定责,再映射风险场景、度量与监控、最后在运行中持续管理。 同时也契合 NCSC 的“secure by design & lifecycle”建议:在设计、开发、部署、运维阶段分别落地控制,并把日志监控、供应链、安全默认值视为关键。

以下建议按“技术—流程—监管/合规—审计与监控”四条线组织,便于产品与安全团队协作拆解。

技术控制重点应围绕“信任边界 + 最小权限 + 可执行面收敛”。OWASP 对提示注入的缓解建议强调:控制 LLM 访问后端系统的权限(单独 token、最小权限)、在特权动作加入人工环节、将外部内容与用户提示分离、在 LLM 与插件/下游系统之间建立信任边界并持续监控输入输出。 对编程与可执行类 agent,这些原则需要具体化为:默认沙箱/虚拟化隔离、网络 egress 白名单、文件系统 allowlist、命令 allow/deny 策略、密钥不落盘与输出脱敏、对依赖安装与脚本执行做策略门禁。 对于通过连接器/协议扩展工具能力的场景,MCP 的安全最佳实践与规范也提示要把授权、信任与实现漏洞作为重点评估对象。

流程控制要把“审批”从 UI 按钮升级为“可证明的决策机制”。Cursor 与 Anthropic 都指出“对每个命令都弹审批”会导致审批疲劳;因此更稳妥的做法是:用沙箱边界减少审批频次,把审批资源集中在“跨出沙箱边界”的动作上,并对批准动作做结构化记录(谁在何时批准了什么、在什么上下文下)。 同时,必须在上线前完成威胁建模与红队测试。OpenClaw 的威胁模型文档明确把网关、通道集成、技能市场、MCP 服务器等纳入范围并持续维护;这类“living threat model”模式适合 agent 平台化产品。 NCSC 也强调在设计阶段就要做威胁建模,并在供应链选择、外部组件接入、第三方模型/权重导入时做隔离与扫描。

监管与合规建议按“内容—数据—安全能力”三条主线对齐:内容创作类至少满足生成式 AI 服务的内容合规、标识、投诉处置等要求;涉及个人信息与训练数据治理则需按监管要求取得同意、保证数据来源合法并提升数据质量。 对工具/执行类 agent,合规通常不足以覆盖“权限误用与执行链攻击”,因此还需要把网络安全要求(身份认证、访问控制、最小权限、日志留存)强制化到产品默认配置中;OpenClaw 的安全文档把“谁能对 bot 说话”“bot 被允许在哪里行动”“bot 能触达什么”视为配置的核心三问,可作为合规落地的配置模板。

审计、监控与告警需要覆盖“模型输入—工具调用—环境副作用—数据流向”全链路。NCSC 指出 AI 系统开发与运维中日志监控、更新管理与信息共享是运维阶段的关键;OWASP 也建议对输入输出做持续监控以发现弱点。 对长程自治/多通道型平台,还应把“异常会话轨迹”“异常工具序列”“异常数据外发(目的地、体量、频率)”“权限策略变更”纳入告警,并将高危动作设计为可中断、可回滚、可隔离。

局限性、未决问题与未来改进方向

首先,这套分级体系是“以能力与部署边界为核心的风险刻画”,并不能替代针对具体业务的威胁建模与红队验证。NIST AI RMF 明确其强调持续风险管理而非一次性清单式合规;落地时需要把评分作为“门禁与复评触发器”,而不是最终结论。

其次,Prompt Injection 及其衍生问题存在“结构性残余风险”。NCSC 直言应避免把 Prompt Injection 简化成可被单点修复的“类 SQL 注入”,更应将其视为“先天可混淆代理”的 confused deputy 类问题,工程上要做的是降低影响面、降低可用权限、提升可检测性——如果系统不能容忍残余风险,可能就不适合接入 LLM/agent。 OWASP 中文版文档也指出 LLM 不区分指令与外部数据,因此不存在模型内部“万无一失”的预防,只能通过权限、边界、人工环节与监控来减轻影响。

第三,评分对“未公开/未明确信息”敏感:例如是否默认启用沙箱、连接器授权模型、日志留存策略、是否允许自定义插件/技能、是否存在共享委托权限等,都会显著改变工具/执行/自治三项得分。这要求组织建立“证据优先”的评估机制:没有证据就按更坏假设评分,或要求供应商提供安全证明材料(权限模型、审计日志样例、隔离机制说明、漏洞响应 SLA 等)。

第四,未来攻击会更多集中在“工具链与生态面”,而非单纯对话越狱:学术研究已讨论针对工具选择阶段的注入/劫持(污染工具文档让 agent 选错工具),以及 RAG/检索器被投毒后触发特定行为;这些都会让“外部依赖与工具元数据”成为新的高价值目标。 相应地,未来改进方向包括:为工具与连接器建立“可验证身份与签名”(减少身份碎片化与静态密钥滥用),把策略引擎前置到每次工具调用前做实时评估,并为 agent 的行动轨迹提供更强的可解释与可复盘能力(可审计的计划—执行—证据链)。

参考文献(References)

[1] S. Russell and P. Norvig. Artificial Intelligence: A Modern Approach – Agents. Berkeley AI Materials, 2021.https://aima.cs.berkeley.edu/4th-ed/pdfs/newchap02.pdf

[2] J. Wei, X. Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv, 2022.https://arxiv.org/abs/2210.03629

[3] OWASP Foundation. OWASP Top 10 for Large Language Model Applications v1.1. OWASP GenAI Project, 2024.https://genai.owasp.org/wp-content/uploads/2024/05/OWASP-Top-10-for-LLM-Applications-v1_1_Chinese.pdf

[4] UK National Cyber Security Centre. Guidelines for Secure AI System Development. NCSC, 2023.https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

[5] UK National Cyber Security Centre. Prompt Injection Is Not SQL Injection. NCSC Blog, 2024.https://www.ncsc.gov.uk/blog-post/prompt-injection-is-not-sql-injection

[6] Manus AI. Manus Documentation – Introduction. Manus AI Documentation.https://manus.im/docs/introduction/welcome

[7] Manus AI. Manus Tools Documentation. Manus AI Documentation.https://manus.im/tools

[8] 中华人民共和国国家互联网信息办公室. 生成式人工智能服务管理暂行办法. 2023.http://www.moj.gov.cn

[9] Anthropic. Introducing the Model Context Protocol. Anthropic Engineering Blog, 2024.

[10] Anthropic. Claude Code Sandboxing Architecture. Anthropic Engineering, 2024.https://www.anthropic.com/engineering/claude-code-sandboxing

[11] Anthropic. Claude Code Documentation Overview. Claude Code Docs.https://code.claude.com/docs/en/overview

[12] Anthropic. Claude Code Permission Model. Claude Code Docs.https://code.claude.com/docs/en/permissions

[13] Anthropic. Claude Code Security Model. Claude Code Docs.https://code.claude.com/docs/en/security

[14] Cursor Team. Cursor CLI Agent Architecture. Cursor Engineering Blog.https://cursor.com/blog/cli

[15] Cursor Team. Agent Sandboxing in Cursor. Cursor Engineering Blog.https://cursor.com/blog/agent-sandboxing

[16] OpenClaw Project. OpenClaw Documentation.https://docs.openclaw.ai/

[17] OpenClaw Project. OpenClaw Gateway Security Model.https://docs.openclaw.ai/gateway/security

[18] OpenClaw Project. Threat Model Atlas for OpenClaw.https://docs.openclaw.ai/security/THREAT-MODEL-ATLAS

[19] Y. Li et al. Backdoored Retrievers for Prompt Injection Attacks on Retrieval-Augmented Generation. NDSS Symposium, 2026.https://www.ndss-symposium.org/wp-content/uploads/2026-s675-paper.pdf

[20] OWASP Foundation. OWASP Top 10 for LLM Applications 2025 Update. OWASP, 2025.

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON