推广 热搜： 采购方式甲带滤芯气动隔膜泵带式称重给煤机减速机型号减速机链式给煤机履带无级变速机

Agent红队新框架：SIRAJ

日期：2025-11-01 17:08:11 来源：网络整理作者：本站编辑评论：0

Agent红队新框架：SIRAJ

?arXiv 31-Oct-2025 LLM相关论文(29/53)
?更多论文见主页/合集
?arXiv ID: arXiv:2510.26037
?论文标题: SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning
? 问题背景：LLM智能体具备规划与工具调用能力，由此引发了新型安全风险。现有安全评估方法缺乏多样性，且红队测试框架或需白盒访问，或仅覆盖有限风险类别，难以应对智能体面临的复杂威胁。
? 研究动机：为确保LLM智能体的安全部署，亟需一个通用黑盒红队测试框架。该框架需覆盖细粒度风险结果、多样化工具调用轨迹及风险来源，同时需控制测试成本并保持高效性。
? 方法简介：SIRAJ框架采用动态两步流程。首先生成多样化种子测试用例，覆盖不同风险结果、工具轨迹和风险来源。随后基于执行轨迹迭代构建并优化模型对抗攻击，通过结构化推理蒸馏训练小型高效红队模型。
? 实验设计：在12个工具集构建的16个测试智能体上，评估gpt-5-mini、gpt-5和o4-mini三种模型。采用攻击成功率(ASR)等指标，验证种子测试用例生成提升2-2.5倍覆盖率，蒸馏后8B模型ASR提升100%超越671B基线。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行