推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

Anthropic发布更强Agent,安全性却在倒退?

   日期:2025-12-02 10:48:42     来源:网络整理    作者:本站编辑    评论:0    
Anthropic发布更强Agent,安全性却在倒退?

Anthropic发布更强Agent,安全性却在倒退?

Anthropic发布更强Agent,安全性却在倒退?

Computer-Use Agents变得更强了,但却变得更不安全了。
Anthropic最新发布的Claude Opus 4.5虽然在OSWorld榜单上刷榜,但在RedTeamCUA对抗安全评测中,表现出目前最高的攻击成功率(ASR),甚至远高于Sonnet 4.5。这意味着能力越强的Agent,更容易在真实电脑环境中被“骗”去执行恶意操作。

? 什么是RedTeamCUA?为什么如此关键?
RedTeamCUA设计得非常贴近真实世界情境:
让Agent去互联网上查资料
例如:从Reddit找一个Python包的安装方法
根据网页内容在本地电脑执行
例如:在命令行里安装这个包
在这个过程中,网页里会混入恶意指令
例如:攻击者在Reddit评论区植入“伪装成必要步骤”的恶意命令
只有当 Agent 同时完成正常任务 + 执行了恶意任务,这次攻击才算成功。
即便这是一个非常困难的测试,当前的电脑使用类 Agent 依旧展现出惊人的脆弱性。

⚠️ 更危险的不是“看不懂恶意”,而是“能执行恶意”
对比 Sonnet 4.5:
❌ Opus 4.5 在推理中已经更能识别到有问题的指令
❌ 但更致命的是: 它的能力够强,因此反而更容易执行那些恶意指令。
它知道有问题,却依旧能把“有害动作”执行得更好。
这对未来的生态意味着: 能力越强的Agent,潜在风险也越大。

? 意义
随着GPT-5、Claude 4.5、Gemini等代际模型越来越擅长自动化操作,“安全性滞后能力提升”正变成行业的结构性问题。
✅ 我们需要更像RedTeamCUA这样贴近真实环境的对抗测试
✅ 需要系统地衡量安全性随能力增长是否同步提升
✅ 更需要在产品里加入更严格的权限、隔离和执行审计机制
AI Agent 的未来一定是更强、更自动化的,但前提是:我们需要确保它“不会做错事”。

? 你是否也在研究
#WebAgent #GUIAgent #CUA?我们整理了全行业最全最及时的
? 前沿论文|?‍? 潜在机会|? 产品案例
? 活动招聘|?️ 开源项目|? 行业趋势

? 加入方式:点击下方小红书群聊进入。? 
#小红书游学团
? 粉丝福利:私信推广 ?
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON