Fable 5短暂称王后被禁,GPT 5.5成唯一霸主
Anthropic Fable 5短暂领跑后遭封杀,技术优势被政策终结
Fable 5在发布后迅速展现压倒性性能,在Chatbot Arena、SWE-Bench Pro及多个核心编程评估中超越GPT 5.5,成为当时最具竞争力的公开模型。
多维度评测表现碾压,真实任务差距显著
在权威评测平台Chatbot Arena中,Fable 5位列榜首,而GPT 5.5仅排第四;在SWE-Bench Pro上,其得分高达80.3%,相较GPT 5.5的58.6%形成近22个百分点的实质性领先。
编程能力方面,Fable 5在Code Arena中取得1665分,领先98 Elo分;在FrontierCode Diamond测试中达到29.3%成功率,远超GPT 5.5的5.7%。
部署成本劣势难掩性能优势,访问窗口被提前终止
尽管在经济性上略逊一筹——每百万输入token成本10美元,输出为50美元,而GPT 5.5分别为5美元和30美元——但其卓越的推理与代码生成能力仍使其成为开发者首选。
Fable 5提供长达一百万token的上下文窗口及12.8万token的输出上限,原计划对订阅用户开放至6月22日,但政府禁令使其无法如期推进。
监管介入导致市场格局突变,GPT 5.5被动登顶
6月12日,美国政府以“越狱漏洞”为由下达出口管制指令,要求关闭Fable 5及其所属Mythos 5系列模型。Anthropic反驳称该问题影响有限且在GPT 5.5中同样存在。
这一干预使得原本处于竞争状态的顶尖模型突然消失,导致GPT 5.5在无对手情况下成为当前唯一可广泛使用的最强模型。
22个百分点的性能差距意味着,一个模型能解决约五分之四的真实软件工程挑战,而另一个仅覆盖五分之三,对实际开发效率影响深远。
Fable 5的短暂存在也凸显了大模型迭代速度之快:其于4月底以代号“Spud”启动内部测试,但在6月便被更先进的系统取代,彰显了行业加速演进的现实。
一分钟读懂:Anthropic推出的Fable 5在多项编程基准测试中超越GPT 5.5,仅上线三天即因美国出口管制被强制下线。该事件暴露了前沿AI技术与监管之间的紧张关系,也使GPT 5.5成为当前唯一可用的顶级模型。
