




随着大型语言模型(LLM)被广泛用于智能体系统,与外部环境交互带来巨大风险——尤其是“提示注入”(Prompt Injection)攻击。CISPA与Google DeepMind团队联合提出 SIC(Soft Instruction Control)软指令防御机制,通过多轮迭代清洗与检测,有效降低模型被恶意指令操控的风险。
核心亮点:
多轮柔性清洗机制:反复扫描、改写或屏蔽输入数据中的“指令性语句”,直到检测不到命令性内容。
可插拔预处理层设计:SIC作为独立模块运行,无需修改模型结构或代理逻辑,部署轻量、兼容性强。
“软控制”理念:相较CaMeL的严格数据/控制流分离,SIC采用宽松语义识别,兼顾安全与可用性。
多重检测冗余:引入“假指令(canary)”检测机制验证改写有效性,并对整体与分块内容双重检测。
攻击难度指数上升:攻击者需同时绕过重写、检测与重构多个环节,显著提高攻击成本。
实证性能强劲:在AgentDojo基准中,SIC在多模型(GPT-4o、Qwen3-32B、Kimi-K2等)上实现 0%攻击成功率(ASR)。
自适应攻击下仍保持韧性:即使面对Nasr等提出的遗传算法级自适应攻击,ASR仅15%,领先同类防御3倍以上。
应用场景 / 用户反馈 / 实验结果: SIC适用于所有具备工具调用、外部数据访问或联网功能的LLM智能体,尤其是企业安全、自动化客服、金融与办公助理等高风险场景。 实验显示:在不牺牲太多实用性的前提下,SIC能显著降低被注入攻击成功的概率,且计算成本线性可控。对抗实验验证其在银行、Slack与旅行三大任务中稳定防御效果。
意义: SIC代表从“硬防御”向“软防御”的重要转折。它不是追求理论完美,而是现实可行、实用高效的“提高攻击门槛”方案。论文指出,未来研究可在结构化数据(如JSON、伪代码嵌入)识别与跨句推理防御方向进一步强化。 对于AI安全研究者与智能体系统开发者而言,SIC提供了一个兼具透明性与轻量性的防御模板,为构建可信、安全的AI代理系统奠定新基石。
? 论文 arXiv:2510.21057
#AI安全 #prompt #llm #智能体安全 #deepmind #CISPA #安全研究 #生成式AI #Agent安全 #安全架构
核心亮点:
多轮柔性清洗机制:反复扫描、改写或屏蔽输入数据中的“指令性语句”,直到检测不到命令性内容。
可插拔预处理层设计:SIC作为独立模块运行,无需修改模型结构或代理逻辑,部署轻量、兼容性强。
“软控制”理念:相较CaMeL的严格数据/控制流分离,SIC采用宽松语义识别,兼顾安全与可用性。
多重检测冗余:引入“假指令(canary)”检测机制验证改写有效性,并对整体与分块内容双重检测。
攻击难度指数上升:攻击者需同时绕过重写、检测与重构多个环节,显著提高攻击成本。
实证性能强劲:在AgentDojo基准中,SIC在多模型(GPT-4o、Qwen3-32B、Kimi-K2等)上实现 0%攻击成功率(ASR)。
自适应攻击下仍保持韧性:即使面对Nasr等提出的遗传算法级自适应攻击,ASR仅15%,领先同类防御3倍以上。
应用场景 / 用户反馈 / 实验结果: SIC适用于所有具备工具调用、外部数据访问或联网功能的LLM智能体,尤其是企业安全、自动化客服、金融与办公助理等高风险场景。 实验显示:在不牺牲太多实用性的前提下,SIC能显著降低被注入攻击成功的概率,且计算成本线性可控。对抗实验验证其在银行、Slack与旅行三大任务中稳定防御效果。
意义: SIC代表从“硬防御”向“软防御”的重要转折。它不是追求理论完美,而是现实可行、实用高效的“提高攻击门槛”方案。论文指出,未来研究可在结构化数据(如JSON、伪代码嵌入)识别与跨句推理防御方向进一步强化。 对于AI安全研究者与智能体系统开发者而言,SIC提供了一个兼具透明性与轻量性的防御模板,为构建可信、安全的AI代理系统奠定新基石。
? 论文 arXiv:2510.21057
#AI安全 #prompt #llm #智能体安全 #deepmind #CISPA #安全研究 #生成式AI #Agent安全 #安全架构


