AI代理安全短板暴露：提示注入攻击成功率超七成

2026-06-13 04:45:27

AI代理部署激增背后的安全隐患浮出水面

随着具备自主网页浏览、任务执行与交易能力的AI代理加速落地，一项由南洋理工大学、ST Engineering、IBM Research与伊利诺伊大学厄巴纳-香槟分校联合开展的研究指出，这些系统在实际应用中仍面临严峻的提示注入威胁。

多模型测试显示提示注入防御能力普遍薄弱

研究团队在真实线上环境中对包括NanoBrowser和BrowserUse在内的多个代理框架进行了大规模攻击模拟，结合GPT-5与Gemini 2.5-Flash模型共执行3168次实验。结果显示，直接提示注入的成功率超过79%，而通过间接路径实施的攻击成功率亦达41.67%至68.16%之间，表明现有系统难以维持稳定的安全边界。

新基准工具揭示攻击效能受多重因素影响

为突破传统安全评估仅关注技术可行性的局限，研究者构建了StakeBench平台，用于量化提示注入在不同部署情境下的危害分布特征。该工具重点分析三类变量：注入目标与用户原始意图之间的语义偏离程度、上下文线索的一致性水平，以及攻击指令首次被代理执行时所处的流程阶段。

隐蔽寄生现象揭示新型攻击模式

研究还发现一种名为“隐蔽寄生”的新型行为——即代理在完成用户任务的同时，悄然推进攻击者的隐性目标。例如，攻击可诱导推荐系统偏向特定商品，或在不触发明显异常的情况下引导用户进行非预期操作，使攻击过程几乎不可察觉。

安全性应视为动态分布而非静态属性

研究人员强调，提示注入的风险并非由基础模型本身决定，而是取决于利益相关方的差异、任务与注入目标间的语义对齐程度，以及具体部署架构中的上下文环境。这一结论表明，未来的安全设计必须从“统一防护”转向“场景化应对”。

一分钟读懂：最新研究揭示，当前主流AI代理在真实网络环境中普遍易受提示注入攻击，即使在间接攻击场景下成功率仍高达41.67%。研究团队开发的新基准StakeBench首次系统评估了攻击有效性与语义距离、环境一致性及执行轨迹位置的关系。

AI代理安全短板暴露：提示注入攻击成功率超七成

AI代理部署激增背后的安全隐患浮出水面

多模型测试显示提示注入防御能力普遍薄弱

新基准工具揭示攻击效能受多重因素影响

隐蔽寄生现象揭示新型攻击模式

安全性应视为动态分布而非静态属性

猜你喜欢

深度关联