银博士押注强化学习:超智能或源于自主试错
2026-04-29 05:45:55
银博士力推强化学习:超智能或源于经验驱动而非数据依赖
在阿尔法围棋于2016年击败世界围棋冠军李世石后,DeepMind核心成员David Silver已成功募集11亿美元,启动其全新创业项目。他明确指出,未来人工智能的演进方向将不再由当前主流的大语言模型主导。
以自主探索取代静态数据训练,构建可自我演化的智能体
Silver于今年初成立的Ineffable Intelligence公司,初始估值达51亿美元,其战略重心聚焦于强化学习技术。该方法通过持续试错、反馈迭代与目标导向行为,使系统在动态环境中实现能力跃升。他认为,相较依赖人类标注数据的模型,这种基于经验积累的学习路径更接近通向超级智能的真实通途。
超越人类认知范式:智能体需在仿真中实现自主发现
他强调,真正的超级智能应具备自主开创科学理论、技术创新与社会制度的能力。为此,公司正致力于打造被称为“超级学习者”的人工智能实体——这些智能体将在高度仿真的虚拟世界中运行,通过设定目标、遭遇失败、调整策略并不断优化,逐步突破传统数据集所设的认知边界。
数据化石燃料终将枯竭,自主学习才是可持续进化引擎
Silver比喻当前大模型所依赖的人类生成内容为“化石燃料”,虽能快速提供知识捷径,但本质有限且不可再生。而强化学习则如同“可再生能源”——只要环境允许,系统便可无限延伸学习深度与广度。他举例说明,若在一个普遍相信地平说的世界中训练模型,系统可能延续错误信念;而基于真实交互的智能体则有机会通过自身验证获得正确结论。
一分钟读懂:DeepMind科学家David Silver创立估值51亿美元的Ineffable Intelligence,主张以强化学习突破大模型局限,推动具备自主认知能力的超级智能发展。
