










?arXiv 31-Oct-2025 LLM相关论文(29/53)
?更多论文见主页/合集
?arXiv ID: arXiv:2510.26037
?论文标题: SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning
? 问题背景:LLM智能体具备规划与工具调用能力,由此引发了新型安全风险。现有安全评估方法缺乏多样性,且红队测试框架或需白盒访问,或仅覆盖有限风险类别,难以应对智能体面临的复杂威胁。
? 研究动机:为确保LLM智能体的安全部署,亟需一个通用黑盒红队测试框架。该框架需覆盖细粒度风险结果、多样化工具调用轨迹及风险来源,同时需控制测试成本并保持高效性。
? 方法简介:SIRAJ框架采用动态两步流程。首先生成多样化种子测试用例,覆盖不同风险结果、工具轨迹和风险来源。随后基于执行轨迹迭代构建并优化模型对抗攻击,通过结构化推理蒸馏训练小型高效红队模型。
? 实验设计:在12个工具集构建的16个测试智能体上,评估gpt-5-mini、gpt-5和o4-mini三种模型。采用攻击成功率(ASR)等指标,验证种子测试用例生成提升2-2.5倍覆盖率,蒸馏后8B模型ASR提升100%超越671B基线。
?更多论文见主页/合集
?arXiv ID: arXiv:2510.26037
?论文标题: SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning
? 问题背景:LLM智能体具备规划与工具调用能力,由此引发了新型安全风险。现有安全评估方法缺乏多样性,且红队测试框架或需白盒访问,或仅覆盖有限风险类别,难以应对智能体面临的复杂威胁。
? 研究动机:为确保LLM智能体的安全部署,亟需一个通用黑盒红队测试框架。该框架需覆盖细粒度风险结果、多样化工具调用轨迹及风险来源,同时需控制测试成本并保持高效性。
? 方法简介:SIRAJ框架采用动态两步流程。首先生成多样化种子测试用例,覆盖不同风险结果、工具轨迹和风险来源。随后基于执行轨迹迭代构建并优化模型对抗攻击,通过结构化推理蒸馏训练小型高效红队模型。
? 实验设计:在12个工具集构建的16个测试智能体上,评估gpt-5-mini、gpt-5和o4-mini三种模型。采用攻击成功率(ASR)等指标,验证种子测试用例生成提升2-2.5倍覆盖率,蒸馏后8B模型ASR提升100%超越671B基线。


