AI事实判断分歧率超六成,多模型竟无法统一结论

多款顶级AI对同一陈述存在显著认知偏差

针对1000条由真实用户提交至事实核查平台的声明,五种最先进的人工智能系统在真实性评估中表现出明显分歧。研究显示,其中672条声明至少有一个模型的判断与多数意见相左,反映出系统间缺乏基本一致性。

真实场景测试揭示模型共识脆弱性

测试样本均来自未被训练数据覆盖的真实争议性陈述,避免了标准测试集可能带来的偏差。研究采用克里彭多夫阿尔法系数进行评估,得出0.639的一致性数值,低于学术界普遍认可的0.8阈值,表明模型群体不具备可替代性的判断能力。

极端判断占主导,中间类别几乎无人认同

在模型达成一致的328条声明中,所有一致结果均集中于“完全真实”或“完全虚假”两类极端判定。值得注意的是,没有任何一条声明获得全体模型对“基本真实”或“存在误导”的共同认定,反映出对灰色地带的识别能力严重不足。

典型案例暴露判断逻辑差异

例如,关于世界银行在尼日利亚投资规模的陈述,不同模型分别给出“基本真实”“虚假”“存在误导”三种截然不同的结论。另一则涉及特朗普外交表态的声明,各模型判定结果从真实到虚假不等,形成多重对立立场。

事实核查依赖面临结构性风险

当前社会日益依赖AI进行信息真伪甄别,但本研究指出,多数意见并不等同于正确答案。当多个模型产生分歧时,至少一个必然错误。而目前尚无有效机制对分歧进行裁决,也无上诉路径,这使得基于群体判断的辅助决策存在根本性缺陷。