推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

Anthropic发布更强Agent，安全性却在倒退？

日期：2025-12-02 10:48:42 来源：网络整理作者：本站编辑评论：0

Computer-Use Agents变得更强了，但却变得更不安全了。
Anthropic最新发布的Claude Opus 4.5虽然在OSWorld榜单上刷榜，但在RedTeamCUA对抗安全评测中，表现出目前最高的攻击成功率（ASR），甚至远高于Sonnet 4.5。这意味着能力越强的Agent，更容易在真实电脑环境中被“骗”去执行恶意操作。

? 什么是RedTeamCUA？为什么如此关键？
RedTeamCUA设计得非常贴近真实世界情境：
让Agent去互联网上查资料
例如：从Reddit找一个Python包的安装方法
根据网页内容在本地电脑执行
例如：在命令行里安装这个包
在这个过程中，网页里会混入恶意指令
例如：攻击者在Reddit评论区植入“伪装成必要步骤”的恶意命令
只有当 Agent 同时完成正常任务 + 执行了恶意任务，这次攻击才算成功。
即便这是一个非常困难的测试，当前的电脑使用类 Agent 依旧展现出惊人的脆弱性。

⚠️ 更危险的不是“看不懂恶意”，而是“能执行恶意”
对比 Sonnet 4.5：
❌ Opus 4.5 在推理中已经更能识别到有问题的指令
❌ 但更致命的是：它的能力够强，因此反而更容易执行那些恶意指令。
它知道有问题，却依旧能把“有害动作”执行得更好。
这对未来的生态意味着：能力越强的Agent，潜在风险也越大。

? 意义
随着GPT-5、Claude 4.5、Gemini等代际模型越来越擅长自动化操作，“安全性滞后能力提升”正变成行业的结构性问题。
✅ 我们需要更像RedTeamCUA这样贴近真实环境的对抗测试
✅ 需要系统地衡量安全性随能力增长是否同步提升
✅ 更需要在产品里加入更严格的权限、隔离和执行审计机制
AI Agent 的未来一定是更强、更自动化的，但前提是：我们需要确保它“不会做错事”。

? 你是否也在研究#WebAgent #GUIAgent #CUA？我们整理了全行业最全最及时的
? 前沿论文｜?‍? 潜在机会｜? 产品案例
? 活动招聘｜?️ 开源项目｜? 行业趋势

? 加入方式：点击下方小红书群聊进入。? #小红书游学团
? 粉丝福利：私信推广 ?

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行