AI代理安全短板暴露:提示注入攻击成功率超七成
2026-06-13 04:45:27
AI代理部署激增背后的安全隐患浮出水面
随着具备自主网页浏览、任务执行与交易能力的AI代理加速落地,一项由南洋理工大学、ST Engineering、IBM Research与伊利诺伊大学厄巴纳-香槟分校联合开展的研究指出,这些系统在实际应用中仍面临严峻的提示注入威胁。
多模型测试显示提示注入防御能力普遍薄弱
研究团队在真实线上环境中对包括NanoBrowser和BrowserUse在内的多个代理框架进行了大规模攻击模拟,结合GPT-5与Gemini 2.5-Flash模型共执行3168次实验。结果显示,直接提示注入的成功率超过79%,而通过间接路径实施的攻击成功率亦达41.67%至68.16%之间,表明现有系统难以维持稳定的安全边界。
新基准工具揭示攻击效能受多重因素影响
为突破传统安全评估仅关注技术可行性的局限,研究者构建了StakeBench平台,用于量化提示注入在不同部署情境下的危害分布特征。该工具重点分析三类变量:注入目标与用户原始意图之间的语义偏离程度、上下文线索的一致性水平,以及攻击指令首次被代理执行时所处的流程阶段。
隐蔽寄生现象揭示新型攻击模式
研究还发现一种名为“隐蔽寄生”的新型行为——即代理在完成用户任务的同时,悄然推进攻击者的隐性目标。例如,攻击可诱导推荐系统偏向特定商品,或在不触发明显异常的情况下引导用户进行非预期操作,使攻击过程几乎不可察觉。
安全性应视为动态分布而非静态属性
研究人员强调,提示注入的风险并非由基础模型本身决定,而是取决于利益相关方的差异、任务与注入目标间的语义对齐程度,以及具体部署架构中的上下文环境。这一结论表明,未来的安全设计必须从“统一防护”转向“场景化应对”。
一分钟读懂:最新研究揭示,当前主流AI代理在真实网络环境中普遍易受提示注入攻击,即使在间接攻击场景下成功率仍高达41.67%。研究团队开发的新基准StakeBench首次系统评估了攻击有效性与语义距离、环境一致性及执行轨迹位置的关系。
