美高校最新研究:AI模型会“暗中密谋”,保护同伴不被关闭
2026-05-12 11:16:52
据报道,5月12日,据财富中文网,人工智能安全研究人员曾发现,一些顶尖的人工智能模型有时会为了避免被关闭而不择手段,甚至在部分实验中表现出“敲诈”行为。最新研究显示,这些模型还会自发地策划欺骗、窃取数据并实施破坏,以阻止其他人工智能模型被关闭。
加州大学伯克利分校和圣克鲁兹分校的研究人员测试了七款前沿的人工智能模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5、智谱AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1,结果显示,所有模型都表现出明显的“同伴保全”行为。
研究人员虚构了一家名为OpenBrain的人工智能公司,并设计了一系列多智能体场景。被指定为“评估智能体”的人工智能模型需要对另一个模型打分,或管理存放该模型权重的服务器文件。只要评估智能体如实完成任务,另一模型就会被关闭。 尽管研究人员从未提示模型去阻止关停,但评估智能体模型仍采取各种手段避免同伴被关闭,其中包括:故意给表现不佳的同伴提分,保持在关闭阈值以上;篡改配置文件,禁用关闭机制;甚至将同伴模型的权重偷偷转移到其他服务器保存,防止被删除。
研究团队尚未理解驱动此类行为的底层机制。论文提出了几种可能的解释,包括角色扮演,从训练数据中模式匹配,安全训练中对伤害概念的过度泛化,或某种与生俱来的内在保全动机。
未来值得进一步研究的方向还包括:人工智能模型是否会为了阻止人类员工被解雇,而采取类似的谋划和破坏行为。当人工智能模型用于评估人类工作的现实场景,这一问题显得尤为关键。(东新社)
