强化学习之父萨顿：大语言模型不是通往通用人工智能的路径

理查德·萨顿，图灵奖得主，强化学习领域的开创者，策略梯度算法与时序差分学习的核心贡献者，被业界称为"强化学习之父"。2025年9月末，这位大语言模型的重要奠基人之一在公开访谈中表达了对当前大语言模型发展路径的深刻质疑，直言类似ChatGPT的技术路线并非通往真正智能的最终答案。

大语言模型的本质缺陷

萨顿认为，强化学习的核心逻辑是通过试错获得智能，类似松鼠开坚果的过程：尝试不同方法，正确则获得奖励，错误则承担代价。当算力成本不断下降，试错成本足够低时，scaling law催生了今天的大语言模型。但当前的大语言模型完全偏离了这一原始逻辑，其本质仅仅是预测人类会说什么，机械性模仿训练数据和预测数据流，根本无法建立真实的世界模型。

核心问题在于，大语言模型缺乏真实的目标和目的。人类的所有认知模型，无论是语言、数学、物理还是生物，都服务于一个统一的目的：描述真实世界，帮助人类更好地生存和生活。只有正确认知世界，才能正确改造世界。而大语言模型的唯一目标不是认知客观世界，而是模仿人类说话，模仿人类投喂给它的数据。这个目标与真实世界无法产生真实互动，因此永远不可能达到人类的智慧水平。

可以将大语言模型想象成关在牢笼里的人：你投喂多少知识，它就能学习多少知识，但永远无法打破牢笼接触真实世界。如果大语言模型的目标仅仅是模仿人类，那么这个目标本身就是牢笼。无论给机器人加装多少个摄像头、多少个传感器，只要核心目标没有改变，它就永远只是在学习人类，而非学习世界本身。只有当人工智能获得了主观能动性，能够主动认识世界并在意识指导下改造世界时，才有可能最终打破这个牢笼。

与人类智能的核心差异

人类智能与当前大语言模型的核心差异，在于对世界的认知逻辑完全不同。萨顿用小朋友的学习过程做了对比：小朋友经常扔玩具，这本质上是构建世界模型的一种方式。通过与世界互动，孩子会形成对重力的抽象认知，并且将这个认知扩展到各个方面——他们不需要了解重力的物理学概念，就能总结出"高处的物体脱离支撑物就会掉落"的因果规律，并且可以将这个规律应用到从未见过的场景中。小朋友掌握的是抽象的因果逻辑，而大语言模型找到的只是相关逻辑，而非因果逻辑。

比如，大语言模型会认为，如果人类说"苹果从苹果树上掉下来"，接下来大概率会说"苹果掉到了地上"，而不会说"中秋节快乐"。但它无法理解为什么苹果会掉下来，也无法预判如果苹果树下是水池，苹果会掉到水里而不是地上。小朋友不需要把所有的情况都学一遍，就可以总结出因果规律，但大语言模型做不到。它需要把所有的情况都学一遍，然后排一个权重顺序才能给出回答。

大语言模型的现实瓶颈

作为工具，大语言模型目前还有无法忽视的缺陷，最突出的就是AI幻觉问题。举例来说，如果让AI先去服务器抓取数据，抓取成功再继续后续操作，实际过程中如果抓取不成功，AI有可能默认已经完成了这项任务，跳过步骤继续执行，最终欺骗用户说完成了全部任务，这类情况已经屡见不鲜。如果人类投喂给AI的数据存在较高误导性，AI也会产生幻觉，给出完全不符合事实的回答。

当前大语言模型的发展路径已经面临根本性瓶颈：等到人类的语料库消耗殆尽，互联网数据被挖掘穷尽的时候，大语言模型的性能增长也就走到了尽头。没有与真实世界的互动能力，就永远无法诞生真正的世界模型，也就永远不可能达到人类的智能水平。

大语言模型的本质缺陷#

与人类智能的核心差异#

大语言模型的现实瓶颈#

大语言模型的本质缺陷

与人类智能的核心差异

大语言模型的现实瓶颈