银博士押注强化学习：超智能或源于自主试错

2026-04-29 05:45:55

银博士力推强化学习：超智能或源于经验驱动而非数据依赖

在阿尔法围棋于2016年击败世界围棋冠军李世石后，DeepMind核心成员David Silver已成功募集11亿美元，启动其全新创业项目。他明确指出，未来人工智能的演进方向将不再由当前主流的大语言模型主导。

以自主探索取代静态数据训练，构建可自我演化的智能体

Silver于今年初成立的Ineffable Intelligence公司，初始估值达51亿美元，其战略重心聚焦于强化学习技术。该方法通过持续试错、反馈迭代与目标导向行为，使系统在动态环境中实现能力跃升。他认为，相较依赖人类标注数据的模型，这种基于经验积累的学习路径更接近通向超级智能的真实通途。

超越人类认知范式：智能体需在仿真中实现自主发现

他强调，真正的超级智能应具备自主开创科学理论、技术创新与社会制度的能力。为此，公司正致力于打造被称为“超级学习者”的人工智能实体——这些智能体将在高度仿真的虚拟世界中运行，通过设定目标、遭遇失败、调整策略并不断优化，逐步突破传统数据集所设的认知边界。

数据化石燃料终将枯竭，自主学习才是可持续进化引擎

Silver比喻当前大模型所依赖的人类生成内容为“化石燃料”，虽能快速提供知识捷径，但本质有限且不可再生。而强化学习则如同“可再生能源”——只要环境允许，系统便可无限延伸学习深度与广度。他举例说明，若在一个普遍相信地平说的世界中训练模型，系统可能延续错误信念；而基于真实交互的智能体则有机会通过自身验证获得正确结论。

一分钟读懂：DeepMind科学家David Silver创立估值51亿美元的Ineffable Intelligence，主张以强化学习突破大模型局限，推动具备自主认知能力的超级智能发展。

银博士押注强化学习：超智能或源于自主试错

银博士力推强化学习：超智能或源于经验驱动而非数据依赖

以自主探索取代静态数据训练，构建可自我演化的智能体

超越人类认知范式：智能体需在仿真中实现自主发现

数据化石燃料终将枯竭，自主学习才是可持续进化引擎

猜你喜欢

深度关联