首页 • 头条

AI事实判断分歧率超六成，多模型竟无法统一结论

2026-05-30 02:43:05

AI事实判断分歧率超六成，多模型竟无法统一结论

多款顶级AI对同一陈述存在显著认知偏差

针对1000条由真实用户提交至事实核查平台的声明，五种最先进的人工智能系统在真实性评估中表现出明显分歧。研究显示，其中672条声明至少有一个模型的判断与多数意见相左，反映出系统间缺乏基本一致性。

真实场景测试揭示模型共识脆弱性

测试样本均来自未被训练数据覆盖的真实争议性陈述，避免了标准测试集可能带来的偏差。研究采用克里彭多夫阿尔法系数进行评估，得出0.639的一致性数值，低于学术界普遍认可的0.8阈值，表明模型群体不具备可替代性的判断能力。

极端判断占主导，中间类别几乎无人认同

在模型达成一致的328条声明中，所有一致结果均集中于“完全真实”或“完全虚假”两类极端判定。值得注意的是，没有任何一条声明获得全体模型对“基本真实”或“存在误导”的共同认定，反映出对灰色地带的识别能力严重不足。

典型案例暴露判断逻辑差异

例如，关于世界银行在尼日利亚投资规模的陈述，不同模型分别给出“基本真实”“虚假”“存在误导”三种截然不同的结论。另一则涉及特朗普外交表态的声明，各模型判定结果从真实到虚假不等，形成多重对立立场。

事实核查依赖面临结构性风险

当前社会日益依赖AI进行信息真伪甄别，但本研究指出，多数意见并不等同于正确答案。当多个模型产生分歧时，至少一个必然错误。而目前尚无有效机制对分歧进行裁决，也无上诉路径，这使得基于群体判断的辅助决策存在根本性缺陷。

一分钟读懂：最新研究揭示，全球五大顶尖AI系统在真实用户提交的事实声明上，超过三分之二出现判断不一致。尽管模型持续优化，但在模糊地带仍难达成共识，凸显其在事实验证中的可靠性隐忧。