推广 热搜： 采购方式甲带滤芯气动隔膜泵带式称重给煤机减速机型号减速机链式给煤机履带无级变速机

CISPA &谷歌 DeepMind提出SIC软指令防御

日期：2025-11-01 17:42:00 来源：网络整理作者：本站编辑评论：0

随着大型语言模型（LLM）被广泛用于智能体系统，与外部环境交互带来巨大风险——尤其是“提示注入”（Prompt Injection）攻击。CISPA与Google DeepMind团队联合提出 SIC（Soft Instruction Control）软指令防御机制，通过多轮迭代清洗与检测，有效降低模型被恶意指令操控的风险。
核心亮点：
多轮柔性清洗机制：反复扫描、改写或屏蔽输入数据中的“指令性语句”，直到检测不到命令性内容。
可插拔预处理层设计：SIC作为独立模块运行，无需修改模型结构或代理逻辑，部署轻量、兼容性强。
“软控制”理念：相较CaMeL的严格数据/控制流分离，SIC采用宽松语义识别，兼顾安全与可用性。
多重检测冗余：引入“假指令(canary)”检测机制验证改写有效性，并对整体与分块内容双重检测。
攻击难度指数上升：攻击者需同时绕过重写、检测与重构多个环节，显著提高攻击成本。
实证性能强劲：在AgentDojo基准中，SIC在多模型（GPT-4o、Qwen3-32B、Kimi-K2等）上实现 0%攻击成功率（ASR）。
自适应攻击下仍保持韧性：即使面对Nasr等提出的遗传算法级自适应攻击，ASR仅15%，领先同类防御3倍以上。
应用场景 / 用户反馈 / 实验结果： SIC适用于所有具备工具调用、外部数据访问或联网功能的LLM智能体，尤其是企业安全、自动化客服、金融与办公助理等高风险场景。实验显示：在不牺牲太多实用性的前提下，SIC能显著降低被注入攻击成功的概率，且计算成本线性可控。对抗实验验证其在银行、Slack与旅行三大任务中稳定防御效果。
意义： SIC代表从“硬防御”向“软防御”的重要转折。它不是追求理论完美，而是现实可行、实用高效的“提高攻击门槛”方案。论文指出，未来研究可在结构化数据（如JSON、伪代码嵌入）识别与跨句推理防御方向进一步强化。对于AI安全研究者与智能体系统开发者而言，SIC提供了一个兼具透明性与轻量性的防御模板，为构建可信、安全的AI代理系统奠定新基石。

? 论文 arXiv:2510.21057
#AI安全 #prompt #llm #智能体安全 #deepmind #CISPA #安全研究 #生成式AI #Agent安全 #安全架构

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行