

Computer-Use Agents变得更强了,但却变得更不安全了。
Anthropic最新发布的Claude Opus 4.5虽然在OSWorld榜单上刷榜,但在RedTeamCUA对抗安全评测中,表现出目前最高的攻击成功率(ASR),甚至远高于Sonnet 4.5。这意味着能力越强的Agent,更容易在真实电脑环境中被“骗”去执行恶意操作。
? 什么是RedTeamCUA?为什么如此关键?
RedTeamCUA设计得非常贴近真实世界情境:
让Agent去互联网上查资料
例如:从Reddit找一个Python包的安装方法
根据网页内容在本地电脑执行
例如:在命令行里安装这个包
在这个过程中,网页里会混入恶意指令
例如:攻击者在Reddit评论区植入“伪装成必要步骤”的恶意命令
只有当 Agent 同时完成正常任务 + 执行了恶意任务,这次攻击才算成功。
即便这是一个非常困难的测试,当前的电脑使用类 Agent 依旧展现出惊人的脆弱性。
⚠️ 更危险的不是“看不懂恶意”,而是“能执行恶意”
对比 Sonnet 4.5:
❌ Opus 4.5 在推理中已经更能识别到有问题的指令
❌ 但更致命的是: 它的能力够强,因此反而更容易执行那些恶意指令。
它知道有问题,却依旧能把“有害动作”执行得更好。
这对未来的生态意味着: 能力越强的Agent,潜在风险也越大。
? 意义
随着GPT-5、Claude 4.5、Gemini等代际模型越来越擅长自动化操作,“安全性滞后能力提升”正变成行业的结构性问题。
✅ 我们需要更像RedTeamCUA这样贴近真实环境的对抗测试
✅ 需要系统地衡量安全性随能力增长是否同步提升
✅ 更需要在产品里加入更严格的权限、隔离和执行审计机制
AI Agent 的未来一定是更强、更自动化的,但前提是:我们需要确保它“不会做错事”。
? 你是否也在研究#WebAgent #GUIAgent #CUA?我们整理了全行业最全最及时的
? 前沿论文|?? 潜在机会|? 产品案例
? 活动招聘|?️ 开源项目|? 行业趋势
? 加入方式:点击下方小红书群聊进入。? #小红书游学团
? 粉丝福利:私信推广 ?
Anthropic最新发布的Claude Opus 4.5虽然在OSWorld榜单上刷榜,但在RedTeamCUA对抗安全评测中,表现出目前最高的攻击成功率(ASR),甚至远高于Sonnet 4.5。这意味着能力越强的Agent,更容易在真实电脑环境中被“骗”去执行恶意操作。
? 什么是RedTeamCUA?为什么如此关键?
RedTeamCUA设计得非常贴近真实世界情境:
让Agent去互联网上查资料
例如:从Reddit找一个Python包的安装方法
根据网页内容在本地电脑执行
例如:在命令行里安装这个包
在这个过程中,网页里会混入恶意指令
例如:攻击者在Reddit评论区植入“伪装成必要步骤”的恶意命令
只有当 Agent 同时完成正常任务 + 执行了恶意任务,这次攻击才算成功。
即便这是一个非常困难的测试,当前的电脑使用类 Agent 依旧展现出惊人的脆弱性。
⚠️ 更危险的不是“看不懂恶意”,而是“能执行恶意”
对比 Sonnet 4.5:
❌ Opus 4.5 在推理中已经更能识别到有问题的指令
❌ 但更致命的是: 它的能力够强,因此反而更容易执行那些恶意指令。
它知道有问题,却依旧能把“有害动作”执行得更好。
这对未来的生态意味着: 能力越强的Agent,潜在风险也越大。
? 意义
随着GPT-5、Claude 4.5、Gemini等代际模型越来越擅长自动化操作,“安全性滞后能力提升”正变成行业的结构性问题。
✅ 我们需要更像RedTeamCUA这样贴近真实环境的对抗测试
✅ 需要系统地衡量安全性随能力增长是否同步提升
✅ 更需要在产品里加入更严格的权限、隔离和执行审计机制
AI Agent 的未来一定是更强、更自动化的,但前提是:我们需要确保它“不会做错事”。
? 你是否也在研究#WebAgent #GUIAgent #CUA?我们整理了全行业最全最及时的
? 前沿论文|?? 潜在机会|? 产品案例
? 活动招聘|?️ 开源项目|? 行业趋势
? 加入方式:点击下方小红书群聊进入。? #小红书游学团
? 粉丝福利:私信推广 ?


