Anthropic推Claude Fable 5:性能突破,安全机制成焦点

Anthropic推出双版本旗舰模型:Fable 5面向大众,Mythos 5定向部署

人工智能企业Anthropic于本周一正式发布其最新一代通用模型Claude Fable 5,作为Mythos级架构的公开版本,该模型被公司定位为当前所有已发布模型中综合性能最强者。与此同时,专为美国政府网络防御团队设计的受限版模型Claude Mythos 5,将通过Project Glasswing项目逐步交付。

通用模型融合高能效与主动安全控制

Fable 5基于与Mythos系列相同的底层结构,但新增了多层级安全过滤系统,可将涉及敏感议题的请求自动转接至更受控的Claude Opus 4.8进行处理。尽管该机制设定较为谨慎,可能导致极少数正常查询被误判,但官方数据显示,此类情况平均发生率低于5%。

受限模型聚焦特定场景,强化任务适配性

Mythos 5版本对安全分类器进行了领域定制化配置,旨在满足高安全性环境下的专用需求。此版本被视为对早期Glasswing试点用户所用预览版的全面升级,并计划在未来扩展至更多经审查认证的机构客户。

多项基准测试验证综合能力跃升

Anthropic强调,Fable 5在复杂任务处理中展现出显著优势,尤其在长序列推理与多步骤规划方面表现突出。多家企业参与的早期评估结果表明,该模型在多个关键指标上处于领先地位。

Stripe披露,其团队利用Fable 5在单日内完成了一项涵盖5000万行Ruby代码的迁移工程,而人工操作预计需耗时逾两个月。Cognition的FrontierCode测试显示,该模型在中等投入条件下已达成生产级代码输出的最高评分。

在金融分析领域,Hebbia的高级推理基准将Fable 5列为首位,尤其在文档理解与图表解析能力上实现突破。交易机构IMC内部评估指出,该模型在期望值建模、事实校验及抽象概念推演方面具备卓越表现。

此外,该模型仅依赖原始游戏画面与基础视觉工具便成功通关《宝可梦 火红》,相较此前版本无需额外辅助模块即可完成类似挑战。

网络安全能力自评领先,尚未接受第三方验证

Anthropic声称,Mythos 5是目前全球范围内具备最强网络安全响应能力的模型,但此结论尚未经独立公开测试框架确认。

双模型同步上线,价格策略大幅优化

公共版与受限版均于2026年6月9日正式开放,定价分别为每百万输入标记10美元、每百万输出标记50美元,约为前代预览版价格的一半。这一调整旨在提升主流开发者与企业的使用门槛亲和力。

公开版本可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI以及Microsoft Foundry接入;而Mythos 5则严格限定于已获授权的Project Glasswing参与者。

两款模型均支持100万标记的上下文长度,单次请求最大输出可达12.8万标记,满足复杂交互需求。

主动防御机制应对高阶模型风险

面对高能力模型可能带来的滥用隐患,Anthropic明确承认其风险敞口,并设计了多层次安全拦截体系。当检测到潜在敏感内容时,系统将触发“refusal”信号并返回由Claude Opus 4.8生成的响应。

开发者可通过API返回的特定状态码识别拒绝事件,并配置自动降级流程——无论是通过服务端的fallback参数,还是客户端SDK中间件,均可无缝切换至备用模型。对于提前被拦截的请求,Anthropic不计费,并提供回退信用额度以补偿缓存重试成本。

公司表示,随着后续模型迭代推进,将持续优化分类器灵敏度,降低非必要拒答频率。