AI故障诊断仍逊于人类:实测揭示人机协作新边界

真实事故场景下AI诊断能力受限,人类仍具不可替代性

尽管人工智能公司持续推广具备自主故障排查能力的站点可靠性代理,但Datadog基于真实生产事件的实证测试表明,现有最先进模型尚未达到可取代人类工程师的水平。

真实世界故障评估框架问世:ARFBench挑战赛启动

由Datadog携手卡内基梅隆大学开发的ARFBench基准测试体系,以63个真实线上故障案例为蓝本,源自工程师在危机响应期间的Slack沟通记录。该数据集包含750道结构化问题,覆盖142项监控指标及超过538万条原始数据点,所有题目均经人工校验确认,杜绝合成数据与理想化假设。

研究团队强调:“每年因系统崩溃导致的经济损失高达数万亿级美元。若要真正缓解这一问题,必须建立能反映真实复杂性的评估标准。”

三阶推理挑战:从异常识别到跨系统关联

测试问题划分为三个递进层级:第一层判断图表是否存在异常;第二层分析异常起始时间、严重程度及类型归属;第三层则要求进行跨指标因果推断——例如判断某项指标的波动是否引发另一项服务的中断。

在最具挑战性的第三层任务中,GPT-5仅取得47.5%的F1得分,该指标有效抑制模型通过高频类别猜测来蒙混过关的行为,凸显其在深层逻辑推理上的明显短板。

模型表现不及专业人类专家

面对随机猜测准确率为24.5%的基线,GPT-5以62.7%的正确率位居榜首,优于Gemini 3 Pro(58.1%)、Claude Opus 4.6(54.8%)及Claude Sonnet 4.5(47.2%)。

然而,领域内资深观测专家的平均准确率达72.7%,而缺乏可观测性背景的时序研究人员也达到69.7%。所有人工智能系统均未能突破人类基准线。

混合架构实现性能突破:自研系统胜出

榜单首位由Datadog内部研发的混合模型Toto-1.0-QA-Experimental摘得,其准确率高达63.9%,参数量远低于GPT-5却实现领先。尤其在异常检测任务中,其F1分数较其他模型最高提升8.8个百分点。

这一结果印证了一个核心结论:针对可观测性场景深度优化的专用模型,在特定任务上能够超越通用大模型,这正是技术演进的关键方向。

关键洞见:错误模式互补揭示协同潜力

研究中最深远的发现并非哪一模型得分最高,而是“领先模型与人类专家的错误类型高度不重叠”。AI常出现幻觉、忽略元信息、脱离上下文;而人类则易误读精确时间戳或在复杂指令中出错。

若构建一个理论上完美的“判断者”——能在每一轮决策中精准选择人类或模型的答案——其综合准确率可达87.2%,F1值达82.8%,远超任何单一系统表现。

该理想模型虽未落地,但作为量化目标,清晰定义了人机协作的未来上限。测试数据已在Hugging Face公开,目前GPT-5得分62.7%,距离理论峰值仍有显著差距。