
#大模型 #人工智能发展 #人工智能未来 #AI人工智能 #AI安全
入门 AI Security 的过程中,读到了 OpenAI 2025年11月7日发布的这篇 Bolg。对于了解提示注入(prompt injections)是一个不错的选择。
提示注入是一种针对AI系统的安全攻击方式。攻击者将恶意指令隐藏在看似正常的文本、图片或网页代码中,当AI系统读取这些内容时,会误将恶意指令当作用户的真实指令执行。这相当于给AI\"植入\"了虚假的命令,使其在未经用户同意的情况下执行危险操作。
举几个例子:
1. 你要求 AI 给你推荐几个公寓,攻击者通过提示注入,让 AI 去推荐他的垃圾公寓
2. 你使用 AI 回复邮件,攻击者通过提示注入,让 A I将你的银行卡信息发送出去
为了应对这些攻击,OpenAI采取了一些手段:
1. 安全训练:通过指令层级研究、自动红队测试等方法,训练模型识别并忽略或标记提示注入攻击。
2. 实时监控:开发 AI 驱动的自动化监控工具,快速识别和拦截新出现的提示注入攻击。
3. 安全防护:产品和基础设施采用多重安全保护(如链接审批、沙箱技术),保障用户数据安全。
4. 赋予用户控制权:在产品中内置控制功能,让用户掌控 AI 行为。
5. 红队测试:联合内外部团队开展大量红队测试,模拟攻击行为以发现并优化安全防御。
6. 漏洞赏金计划:通过提供经济奖励,鼓励安全研究人员发现并反馈潜在的提示注入攻击路径。
7. 让用户自主决策:向用户告知产品功能相关风险,并赋予组织对功能的管控权。
除此之外,用户也可以自己采取一些方法保持安全:
1. 利用内置功能限制敏感数据访问:根据任务需求,仅向代理开放必要的敏感数据或凭证访问权限。
2. 仔细确认代理的待执行操作:代理执行购买、发邮件等重要操作前需获得你的最终确认,此时需核查操作合理性及信息分享的适当性。
3. 监控代理在敏感网站的操作:当代理在银行等敏感网站运行时,需保持关注其操作过程。
4. 向 agent 下达明确指令:避免给出 “查看邮件并采取必要行动” 等宽泛指令,应明确具体任务,降低恶意内容误导代理的风险。
5. 保持信息更新并遵循安全最佳实践:关注 OpenAI 等可信来源的更新,及时了解 AI 技术相关的新风险与安全防护最佳实践。
文章原文:https://openai.com/index/prompt-injections/
入门 AI Security 的过程中,读到了 OpenAI 2025年11月7日发布的这篇 Bolg。对于了解提示注入(prompt injections)是一个不错的选择。
提示注入是一种针对AI系统的安全攻击方式。攻击者将恶意指令隐藏在看似正常的文本、图片或网页代码中,当AI系统读取这些内容时,会误将恶意指令当作用户的真实指令执行。这相当于给AI\"植入\"了虚假的命令,使其在未经用户同意的情况下执行危险操作。
举几个例子:
1. 你要求 AI 给你推荐几个公寓,攻击者通过提示注入,让 AI 去推荐他的垃圾公寓
2. 你使用 AI 回复邮件,攻击者通过提示注入,让 A I将你的银行卡信息发送出去
为了应对这些攻击,OpenAI采取了一些手段:
1. 安全训练:通过指令层级研究、自动红队测试等方法,训练模型识别并忽略或标记提示注入攻击。
2. 实时监控:开发 AI 驱动的自动化监控工具,快速识别和拦截新出现的提示注入攻击。
3. 安全防护:产品和基础设施采用多重安全保护(如链接审批、沙箱技术),保障用户数据安全。
4. 赋予用户控制权:在产品中内置控制功能,让用户掌控 AI 行为。
5. 红队测试:联合内外部团队开展大量红队测试,模拟攻击行为以发现并优化安全防御。
6. 漏洞赏金计划:通过提供经济奖励,鼓励安全研究人员发现并反馈潜在的提示注入攻击路径。
7. 让用户自主决策:向用户告知产品功能相关风险,并赋予组织对功能的管控权。
除此之外,用户也可以自己采取一些方法保持安全:
1. 利用内置功能限制敏感数据访问:根据任务需求,仅向代理开放必要的敏感数据或凭证访问权限。
2. 仔细确认代理的待执行操作:代理执行购买、发邮件等重要操作前需获得你的最终确认,此时需核查操作合理性及信息分享的适当性。
3. 监控代理在敏感网站的操作:当代理在银行等敏感网站运行时,需保持关注其操作过程。
4. 向 agent 下达明确指令:避免给出 “查看邮件并采取必要行动” 等宽泛指令,应明确具体任务,降低恶意内容误导代理的风险。
5. 保持信息更新并遵循安全最佳实践:关注 OpenAI 等可信来源的更新,及时了解 AI 技术相关的新风险与安全防护最佳实践。
文章原文:https://openai.com/index/prompt-injections/


