推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  带式称重给煤机  履带  无级变速机  链式给煤机 

Agent红队新框架:SIRAJ

   日期:2025-11-01 17:08:11     来源:网络整理    作者:本站编辑    评论:0    
Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

Agent红队新框架:SIRAJ

?arXiv 31-Oct-2025 LLM相关论文(29/53)
?更多论文见主页/合集
?arXiv ID: arXiv:2510.26037
?论文标题: SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning
? 问题背景:LLM智能体具备规划与工具调用能力,由此引发了新型安全风险。现有安全评估方法缺乏多样性,且红队测试框架或需白盒访问,或仅覆盖有限风险类别,难以应对智能体面临的复杂威胁。
? 研究动机:为确保LLM智能体的安全部署,亟需一个通用黑盒红队测试框架。该框架需覆盖细粒度风险结果、多样化工具调用轨迹及风险来源,同时需控制测试成本并保持高效性。
? 方法简介:SIRAJ框架采用动态两步流程。首先生成多样化种子测试用例,覆盖不同风险结果、工具轨迹和风险来源。随后基于执行轨迹迭代构建并优化模型对抗攻击,通过结构化推理蒸馏训练小型高效红队模型。
? 实验设计:在12个工具集构建的16个测试智能体上,评估gpt-5-mini、gpt-5和o4-mini三种模型。采用攻击成功率(ASR)等指标,验证种子测试用例生成提升2-2.5倍覆盖率,蒸馏后8B模型ASR提升100%超越671B基线。
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON