切换到宽版
  • 17阅读
  • 2回复

[智能应用]图像缩放攻击突破Google Gemini等AI系统安全防护[1P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
112950
金币
7052
道行
19523
原创
29310
奖券
17968
斑龄
199
道券
10553
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 23060(小时)
注册时间: 2007-11-29
最后登录: 2025-08-24
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 20:49


Trail of Bits的安全研究人员发现,GoogleGemini CLI和其他生产环境中的AI系统可能被图像缩放攻击所欺骗,这是机器学习系统面临的一个众所周知的对抗性挑战。
Google认为这个问题并不构成安全漏洞,因为它依赖于非默认配置才能实现攻击。
图像缩放攻击的概念最初在2019年的USENIX安全会议论文中被讨论,该研究基于此前关于对抗性样本的工作,这些样本能够混淆计算机视觉系统。这种技术涉及将提示信息嵌入到图像中,指示AI违反其准则行事,然后操纵图像来对人眼隐藏提示信息。这需要以特定方式准备图像,使恶意提示编码与模型采用的任何图像缩放算法产生交互。
在一篇博客文章中,Trail of Bits安全研究人员Kikimora Morozova和Suha Sabi Hussain解释了攻击场景:受害者将恶意制作的图像上传到易受攻击的AI服务,底层AI模型根据图像中的隐藏指令执行数据窃取操作。
"通过传递用户不可见的多模态提示注入,我们在包括Google Gemini CLI在内的系统上实现了数据泄露,"Morozova和Hussain写道。"这种攻击之所以有效,是因为AI系统通常在将大图像发送到模型之前会将其缩小:当缩放时,这些图像可能会暴露在全分辨率下不可见的提示注入。"
提示注入发生在生成式AI模型接收到包含可信和不可信内容混合的输入时。这与越狱不同,后者只是旨在绕过安全机制的输入。
提示注入可能是直接的(由用户输入),也可能是间接的(当用户指示模型处理包含模型可以执行的指令的内容时)。后者的一个例子是要求AI模型总结包含恶意指令的网页——模型由于没有区分预期和非预期指令的固有能力,会简单地尝试遵循所有命令。
Morozova和Hussain描述的图像缩放攻击是一种间接提示注入形式,它比许多其他技术有更高的成功几率,因为恶意文本对用户是隐藏的——只有通过缩小图像的过程才会暴露。
为了展示该技术的真实恶意潜力,Morozova和Hussain开发了一个名为Anamorpher的开源工具,可用于制作针对三种常见缩放算法的图像:最近邻插值、双线性插值和双三次插值。
研究人员表示,他们已经成功对以下系统实施了图像缩放攻击:使用Gemini后端的Vertex AI、Gemini的网络界面、通过llm CLI的Gemini API、Android手机上的Google Assistant,以及Genspark智能体浏览器。
Google指出,该攻击仅在Gemini的非标准配置下才有效。
"我们认真对待所有安全报告,并感谢安全社区的研究,"Google发言人告诉The Register。"我们的调查发现,所描述的行为在Gemini CLI的默认安全配置中并不构成漏洞。"
Google发言人解释说,要使攻击成为可能,用户首先需要明确声明他们信任输入,覆盖默认设置,然后摄取恶意文件。
"正如我们项目存储库中记录的那样,我们强烈建议开发者只提供对他们信任的文件和数据的访问权限,并在沙箱内工作,"Google发言人说。"虽然我们为用户提供高级配置选项和安全功能,但我们正在借此机会在工具中为任何选择禁用此保护措施的用户添加更明确的警告。"
Trail of Bits研究人员建议不要在智能体AI系统中使用图像缩放。如果必须使用,他们认为应该始终向用户展示模型实际看到的内容预览,即使是CLI和API工具也应如此。
但实际上,他们表示AI系统需要系统性防御措施来降低提示注入的风险。
Q&A
Q1:什么是图像缩放攻击?它是如何工作的?
A:图像缩放攻击是一种对抗性攻击技术,通过将恶意提示嵌入图像中,然后利用AI系统的图像缩放过程来暴露这些隐藏指令。攻击者制作特殊图像,在全分辨率下恶意文本对人眼不可见,但当AI系统缩放图像时会暴露出来,从而欺骗AI模型执行未授权操作。
Q2:Google Gemini是否存在安全漏洞?
A:Google认为这不是安全漏洞,因为攻击只在非默认配置下才能成功。用户需要明确声明信任输入并覆盖默认安全设置,然后处理恶意文件才可能受到攻击。Google建议开发者只访问可信文件并在沙箱环境中工作。
Q3:如何防范图像缩放攻击?
A:研究人员建议不在智能体AI系统中使用图像缩放,如果必须使用则应向用户显示模型实际看到的内容预览。更重要的是,AI系统需要建立系统性防御措施来降低提示注入风险,包括更严格的输入验证和安全配置。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
179803
金币
366631
道行
2004
原创
2417
奖券
2935
斑龄
37
道券
1068
获奖
0
座驾
设备
摄影级
在线时间: 40337(小时)
注册时间: 2008-10-01
最后登录: 2025-08-24
只看该作者 沙发  发表于: 昨天 23:00
Q&A

Q1:什么是图像缩放攻击?它是如何工作的?

A: 图像缩放攻击是一种对抗性攻击技术,通过将恶意提示嵌入图像中,然后利用AI系统的图像缩放过程来暴露这些隐藏指令。攻击者制作特殊图像,在全分辨率下恶意文本对人眼不可见,但当AI系统缩放图像时会暴露出来,从而欺骗AI模型执行未授权操作。具体来说,这种技术涉及将提示信息嵌入到图像中,指示AI违反其准则行事,然后操纵图像来对人眼隐藏提示信息。这需要以特定方式准备图像,使恶意提示编码与模型采用的任何图像缩放算法产生交互。

Q2:Google Gemini是否存在安全漏洞?

A: Google认为这不是安全漏洞,因为攻击只在非默认配置下才能成功。用户需要明确声明信任输入并覆盖默认安全设置,然后处理恶意文件才可能受到攻击。Google建议开发者只访问可信文件并在沙箱环境中工作。Google发言人解释说,要使攻击成为可能,用户首先需要明确声明他们信任输入,覆盖默认设置,然后摄取恶意文件。

Q3:如何防范图像缩放攻击?

A: 研究人员建议不在智能体AI系统中使用图像缩放,如果必须使用则应向用户显示模型实际看到的内容预览。更重要的是,AI系统需要建立系统性防御措施来降低提示注入风险,包括更严格的输入验证和安全配置。具体措施可以包括:
1. 输入验证:确保所有输入都经过严格验证,排除任何可能的恶意内容。
2. 沙箱环境:在沙箱环境中运行AI模型,限制其访问敏感数据和系统资源。
3. 透明度:向用户展示模型实际看到的内容预览,即使是CLI和API工具也应如此。
4. 系统性防御:建立多层次的防御机制,包括但不限于防火墙、入侵检测系统和定期安全审计。

通过这些措施,可以有效降低图像缩放攻击的风险,保护AI系统的安全性和可靠性。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
151919
金币
337880
道行
20030
原创
758
奖券
224
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17948(小时)
注册时间: 2012-06-21
最后登录: 2025-08-24
只看该作者 板凳  发表于: 6小时前
图像缩放攻击:原理与攻击路径解析
图像缩放攻击是一种针对AI系统的间接提示注入技术,其核心原理是通过在图像中嵌入隐藏的恶意指令,利用AI系统对图像进行缩放处理时的算法漏洞,使原本对人眼不可见的恶意文本在缩放后被模型识别并执行。该技术最早在2019年USENIX安全会议论文中被提出,基于对抗性样本研究,旨在混淆计算机视觉系统12。

攻击实现需经过以下步骤:

嵌入恶意提示:将指示AI违反安全准则的指令(如数据窃取)编码到图像中,并通过特定技术隐藏,使用户在全分辨率下无法察觉。
利用缩放算法:AI系统通常会在处理大图像前将其缩小,缩放过程会暴露隐藏的恶意文本。例如,图像缩小后,原本分散的像素点重新排列,恶意文本得以显现。
执行间接提示注入:模型接收到缩放后的图像后,将混合可信与不可信内容的输入误认为有效指令,进而执行数据泄露等恶意操作12。
Google Gemini等系统的受影响情况与争议
攻击成功案例与影响范围
Trail of Bits研究人员通过开发的开源工具Anamorpher,成功对多个AI系统实施了图像缩放攻击,包括:

Google Gemini CLI及网络界面
使用Gemini后端的Vertex AI
Android设备上的Google Assistant
Genspark智能体浏览器12
攻击导致的直接后果是数据泄露,例如通过隐藏指令诱导模型泄露敏感信息。研究人员强调,该技术的隐蔽性使其成功率高于传统提示注入——恶意文本对用户完全不可见,仅在缩放过程中被模型触发2。

Google对漏洞的争议性回应
Google官方认为该问题不构成安全漏洞,理由是攻击需满足“非默认配置”条件:用户必须手动覆盖默认安全设置,明确声明信任不可信输入并摄取恶意文件。Google在声明中指出,其默认配置已对图像缩放过程采取防护措施,且建议开发者仅处理可信数据并在沙箱环境中运行模型12。

防御建议与行业安全启示
短期应对措施
Trail of Bits研究人员提出以下临时解决方案:

避免在智能体AI系统中使用图像缩放:若必须使用,需向用户实时展示模型实际接收的缩放后图像预览,确保恶意文本可见。
强化输入验证:对上传图像进行全分辨率扫描,检测隐藏文本;限制模型对缩放后图像的指令执行权限2。
长期系统性防御方向
算法优化:改进图像缩放算法,减少隐藏文本在缩放过程中的暴露风险,例如采用抗干扰的分辨率调整技术。
指令隔离机制:开发能够区分“预期指令”与“非预期指令”的模型能力,避免盲目执行混合输入中的所有命令。
安全配置强制化:默认禁用高风险功能,对用户修改安全设置的操作增加多级警告,降低人为失误风险12。
行业警示
图像缩放攻击暴露了多模态AI系统的输入处理漏洞:当模型同时处理文本与图像时,对不可见内容的过滤能力不足。这一案例提示,AI安全防护需覆盖从数据输入到算法执行的全链路,尤其需关注“用户不可见但模型可处理”的隐藏风险点12。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个