Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

本文作者：郑佳美

2025-02-07 14:50

导语：如果只是模仿人类玩家、AI 是无法超越人类的，但纯 RL 算法却能突破人类限制。

继近日斯坦福李飞飞、Percy Liang 等人推出 S1 后，李飞飞的学生、OpenAI 早期成员与前特斯拉 AI 总监也录制了一期最新长达 3 小时的长视频上传到 YouTube，深入浅出地从神经网络的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介绍了 AI 大模型的系列进化：

视频链接：https://www.youtube.com/watch?v=7xTGNNLPyMI

经笔者亲自体验，视频讲解十分通俗易懂，即使没有技术背景的观众也能轻松理解！

尤其是在视频的第 2 个小时开始，他对最近爆火的 DeepSeek-R1 论文进行了深入介绍，并直言 DeepSeek R1 在性能方面与 OpenAI 的模型不相上下，它的出现推动了 RL 技术的发展。

除了盛赞 DeepSeek-R1 的技术创新外，Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价，但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型，阻碍了 RLHF 成为专业技术的步伐。

同时他也提出了一个名为“瑞士奶酪”的 LLM 能力框架，表示大模型会在在某些特定情况下出现随机的失败，告诫人们不要完全依赖大模型。

不仅如此，他还表示在不久的将来，人们可能会看到能够执行长期任务的“智能体”，而人类将成为数字领域中智能体任务的监督者。

由于视频较长、且视频前半段主要是复盘 R1 前的故事，所以雷峰网(公众号：雷峰网) AI 科技评论主要聚焦在视频后半段，筛选并提炼了出视频中的一些关键观点，不改原意整理如下：

RL 在大模型中是起步状态

从高层次来看，我们训练大语言模型的方式实际上与训练孩子的过程非常相似。

我想指出其中几个关键的阶段，前两个阶段——预训练和监督微调——已经存在多年，并且是非常标准的，几乎所有的语言模型厂商都会使用这两种方法。但最后一个阶段——强化学习训练，却处于相对早期的发展阶段，至今还没有成为行业的标准。所以，这个阶段还处于一种比较初步和新兴的状态。

虽然高层次的思路非常简单，就是通过试错学习，但在具体操作中涉及大量的数学细节，比如如何选择最优的解决方案，如何确定训练的量，如何设置训练运行的参数，如何设定提示分布等等，这些都需要精心设计。

包括 OpenAI 在内的很多 LLM 公司实际上已经在内部进行过强化学习微调的实验，尽管他们一直没有公开谈论这部分内容。

DeepSeek 最近发布的论文引起了广泛关注，因为这篇论文来自中国，（首次）公开讨论了强化学习微调在大语言模型中的应用，强调了它对于大语言模型的重要性，以及它如何能够提升模型的推理能力。

这篇论文重新激发了公众对使用 RL 训练 LLM 的兴趣，并提供了许多特定程度的细节，这些细节是重现结果并实际使逻辑调用可行的必要条件。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

值得盛赞的 DeepSeek-R1

让我简要带你了解一下 DeepSeek 的这篇强化学习（RL）论文，以及当你正确地将 RL 应用于语言模型时会发生什么、它是如何提升模型表现的。

在解决数学问题上，你可以看到一开始他们做得不太好。但是当你用成千上万的步骤更新模型后，它们的准确性会持续攀升。

当你在这些问题的大型数据集上进行试错时，它们会以更高的精度解决这些问题。模型正在自己探索如何解决数学问题。但比用更高精度解决这些问题的定量结果更令人难以置信的是模型实现这些结果的定性手段。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

有趣的是，在优化的后期，模型似乎使用每个响应的平均长度上升。该模型似乎使用更多令牌（token）来获得更高的准确性结果，所以基本上他们发现模型的解决方案变得非常长。这是优化的一个新兴属性，它只是发现这对解决问题有好处，因为它开始做这样的事情。

让我们逐步重新评估，以确定正确的总和。模型这个时候已经开始尝试许多想法，从不同的角度尝试一些东西、回溯、重新构建。回溯更能提高准确性。它做了很多人们在解决数学问题的过程中会做的事情，同时它重新发现了你脑海中发生的事情，而不是你在解决方案上写下的东西。

这一点只有在强化学习的过程中才能发现，这对提升模型很有效，因为它确实提高了解决问题的准确性。所以这个模型学习了我们在脑海中称之为“思维链”（CoT）的东西，这是优化的一个紧急属性。这就是反应镜头膨胀的原因，但也是提高解决问题准确性的原因。

令人难以置信的是，这个基于强化学习的模型正在发现人类思考的方法。

它在学习人类的认知策略，关于你如何操纵一个问题，以及你如何从不同的角度来处理它，甚至是你如何引入一些类比或做不同类型的事情，以及你如何随着时间的推移去不断尝试，并且试图正确解决它们，这是令人感到非常不可思议的。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

GPT 等模型中其实也涉及一些 RL 技术，但它们主要还是 SFT 模型。尽管模型在底层产生了类似的思维链，但 OpenAI 选择不在用户界面中显示明确的思维链，而是显示这些思维链的小结。OpenAI 这样做，部分原因是担心所谓的“蒸馏风险”，因为有人可能会尝试模仿这些推理痕迹，并通过模仿思维链来恢复大量的推理性能。因此， OpenAI 隐藏了这些内容，只显示了小结。

但原则上，就模型的力量而言，OpenAI 的模型与 DeepSeek 不相上下，它们都会写出解决方案，所以这些模型在某种程度上是等效的，尽管人们没有看到完整的底层细节。

当然如果你遇到需要高级推理的提示，那么你可能应该尝试使用一些思维模型，或者至少试试看。但从经验上看，对于我大部分的使用场景来说，当你问的是一个比较简单的问题，像是知识性问题之类的，（类似 R1、o1）这种思维模型可能会有点过度处理。

比如，某些事实性问题不需要你思考30秒。所以在这种情况下，我有时会默认使用GPT-4。根据我的使用情况，我大约 80% 到 90% 的使用都是 GPT-4，只有当我遇到非常复杂的问题，比如代码映射等，我才会使用思维模型。但这时我需要稍等一会儿，因为思维模型需要一些时间来进行推理。

你可以在 ChatGPT 或 DeepMind 上使用这些思维模型。此外，我还想指出，AI Studio 虽然看起来很乱，很丑，因为 Google 做这些东西的方式实在不太行，但实际上是发生了很多有趣的事情。如果你选择模型，并选择 Gemini 2.0 Flash Thinking Experimental 0.1.21，你就可以访问 Google 的一种早期实验性思维模型。

你可以在这里输入相同的问题并点击运行，这个思维模型也会给出正确答案。所以，基本上 Gemini 也提供了一个思维模型。而 Anthropic 目前并没有提供思维模型。不过，这就是大语言模型的前沿发展。

我认为强化学习是一个非常令人兴奋的新阶段，但要把细节做对并不容易。这就是为什么目前这些模型和思维模型（截至 2025 年初）都还处于实验阶段。但这正是推动这些推理能力在困难问题中表现的前沿发展。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

纯 RL 可以学习人类没见过的策略

我还想提到的一点是，强化学习作为一种极其强大的学习方式，并不是 AI 领域的新发现。我们已经在围棋这项游戏中看到了这一点的体现。众所周知，DeepMind 开发了系统 AlphaGo。当我们翻阅 AlphaGo 的相关论文时，实际上会看到一个非常有趣的图表，我觉得它对我们来说非常熟悉。我们在更加开放的问题解决领域中的发现，也可以在围棋这个封闭的特定领域中看到。

基本上，他们看到的结果，随着 LLM 逐渐成熟、我们也会在大语言模型中看到。上面说到的那个图表显示的是围棋的黄色评级（指围棋水平分），和一位极强的人类选手的对比。这里，他们对比了由监督学习和强化学习训练的模型的强度。监督学习模型是模仿人类专家玩家的。

也就是说，如果你拿到大量围棋专家的对局数据，并尝试模仿他们，你会变得更强，但最终你会遇到瓶颈，无法超越某些顶级玩家的水平。

因为如果你只是模仿人类玩家，你永远无法超越他们的极限。

但是，在强化学习的过程中，它显著地更强大。在围棋这个例子中，强化学习意味着系统会根据经验和统计数据来选择那些能够赢得比赛的走法。因此，AlphaGo 是一个通过自我对弈并使用强化学习生成回合的系统。

这个过程与我们之前提到的图表完全一致。它没有预设的 prompt ，而是一个固定的围棋游戏。但系统会尝试很多不同的走法，然后在那些能够带来胜利的对局中，强化那些策略，使它们变得更强大。因此，系统本质上是在学习那些经验上、统计上能够导致胜利的行动序列。

强化学习的优势在于，它不会受到人类表现的限制。

通过强化学习，AI 系统可以做得更好，甚至超越顶级的围棋选手。可能他们本可以继续运行这个实验，只是因为成本问题，他们选择在某个点上停止了。但这无疑是强化学习的一个非常强大的示范。我们现在才刚开始在大语言模型的推理问题中看到这种图表的蛛丝马迹。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

在围棋游戏中，强化学习意味着系统会自己与自己对弈，通过试错来学习哪些走法能赢得比赛。这种方法最终使AlphaGo能够超越人类顶尖棋手，甚至发明了一些人类棋手从未想到过的创新走法。这种强化学习的能力不仅在围棋游戏中取得了巨大成功，也为 LLMs 的发展提供了启示。

强化学习有什么独特性呢？需要注意的是，当你进行强化学习时，没有什么能阻止你偏离人类玩游戏的方式。所以，当我们回到 AlphaGo 的这个搜索过程时，其中一个被提到的修改是“第37手”。AlphaGo 在这次对弈中，实际上下了一步人类专家通常不会下的棋。评估来看，这步棋被人类玩家下的概率大约是1/10,000。也就是说，这是一个非常罕见的走法，但回过头来看，这却是一步非常出色的棋。

在强化学习的过程中，AlphaGo 发现了一种人类之前并未意识到的策略，虽然这个策略在当时对人类来说是陌生的，但事后证明却是极为聪明的。我看到这一步时，也以为它是个错误。不过，基本上大家都惊呆了，因为这一步是人类根本不会下的，而 AlphaGo 却下了这一步，因为在它的训练过程中，这步棋被认为是一个好主意。只是恰好它不是人类会做的那种棋步。所以，这再次展示了强化学习的强大力量。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

原则上，系统的行为是没有那么固定的，它可以做任何有效的事情，也可以在训练数据的分布中慢慢漂移。这一切都只有在我们拥有一个非常庞大、多样化的问题集时才能实现，而这些策略可以在其中得到完善和优化。

所以，现在很多前沿研究的重点正是尝试创建这些种类的提示分布——它们既庞大又多样。这些就像是 LMS 练习思维的游戏环境。就像是写作练习题一样，我们需要为所有知识领域创建练习题。如果我们有大量这样的练习题，模型就能在其上进行强化学习，并在开放性思维的领域中绘制出类似的图示，而不是像围棋那样的封闭领域。

到目前为止，我们看到的所有问题都属于所谓的可验证领域。也就是说，任何时候我们都可以很容易地与一个具体答案进行比较评分。例如，答案是 3，我们可以很容易地将这些解与答案 3 进行比较。我们要么要求模型将答案框起来，然后检查框中的内容是否与答案相等，要么可以使用一种被称为“LLM 判定器”的工具。这个判定器会查看一个解并得出答案，基本上会评分该解是否与答案一致。

根据经验，当前能力的 LLM 已经足够强大，能够相对可靠地完成这项工作。所以我们也可以应用这些技术。无论如何，我们都有一个具体的答案，我们只需要检查解是否与之匹配，而且我们可以自动完成这个过程，无需人类参与。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

基本的思路就是我们训练人类的模拟器，并通过强化学习对这些模拟器进行优化。

瑕瑜互见的 RLHF

现在我想谈谈从人类反馈中进行强化学习的优势。

首先，这使我们能够运行强化学习，而我们知道强化学习是一套非常强大的技术。它让我们能够在任意领域进行强化学习，包括那些无法验证的领域。例如，像摘要生成、写诗、编笑话或任何其他创意写作，实际上是在数学和编程等领域之外的。

从经验上看，当我们实际应用 RLHF 时，这确实是提升模型性能的一种方式。虽然我有一个初步的解释，但我并不确定为什么它如此有效。我们可以通过实验证明，当我们正确地做 RLHF 时，得到的模型表现会稍微好一些，但为什么会这样，我认为还是不太清楚。

我的最佳猜测是，这可能主要与判别器和生成器之间的差距有关。所谓差距就是，在许多情况下，对于人类来说，判别比生成要容易得多。举个例子，在我们进行监督微调时，我们要求人类生成理想的助手回应。而在许多情况下，理想的回应是非常简单的，但在某些情况下可能并不是这样。例如，在摘要生成、诗歌创作或笑话编写时，作为一个人类标注者，需要创造性的人工写作才能做到。

而 RLHF 却绕过了这个问题，因为我们可以问人们一个相对简单的问题。作为数据标注者，他们不需要直接写出创意内容，只需要从模型提供的 5 个选项中对它们进行排序。所以，这对人类标注者来说任务要简单得多，也可以让我们获得更多高准确度的数据。

我们并不是要求他们进行创意写作，而只是希望他们区分不同的创意写作，并找出最好的那个。这就是人类提供的信号，就是排序。然后，RLHF 中的系统就会发现哪些回应会被人类评分得更高。因此，这种互动的步骤使得模型变得更加优秀。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

这就是RLHF的优势。它让我们能够运行强化学习，实验证明它能带来更好的模型，并且让人们在不需要做极其困难的任务情况下，也能对生成内容进行监督和选择。

不幸的是，RLHF也有显著的缺点。

首先，主要的问题是，我们实际上是在进行强化学习，不是基于人类和实际的人类判断，而是基于人类的一个有损模拟，并且这个有损模拟可能会产生误导，因为它只是一个模拟，它只是一个语言模型，在为模型打分。而且它并不能完美地反映一个有实际大脑的人类在所有可能的不同情况下的观点。

除此之外，还有一些更加微妙的因素阻碍了我们将 RLHF 作为一种技术，真正扩展到更智能系统的步伐。那就是强化学习非常擅长发现一种方法来“欺骗”模型，误导其做出许多错误的决定。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

迅速发展的 LLM

具体来说，预训练就像是孩子们通过阅读和解释获得基础知识，监督微调就像是看大量的示范例子、模仿专家并做练习题。

唯一的区别是，我们现在必须为大模型编写教科书，涵盖所有人类知识领域。并且，在所有我们希望它们能够应用的领域（如代码、数学以及其他领域）中，我们也需要这样做。所以，我们正在为它们编写教科书，优化所有算法，当然，还要在大规模和高效地训练这些模型时做到非常出色。

除了以上介绍的内容外，我还想说一个我把它称之为“瑞士奶酪”的 LLM 能力框架，我希望大家都能知道这个东西，因为模型在很多不同的领域表现得都很出色，但同时它们在某些特定情况下却会随机失败。

这几乎是毫无规律的。例如你问它“9.11 和 9.9 哪个更大”的问题它就可能答不出来，但与此同时，它却能够解出奥林匹克竞赛题。这就像是瑞士奶酪上的一个“漏洞”。这样的漏洞有很多，使用时需要小心，不要被它们“绊倒”。

所以不要把这些模型当作无懈可击的模型。要检查它们的工作。把它们当作工具，作为灵感的来源，作为初稿的起点，要与它们合作，并对你工作的成果负责任。

最后，我还有几点关于大模型行业未来发展的看法。

首先，你会注意到，很快我们的 LLM 将拥有不仅能处理文本的能力，它们还能够轻松地进行音频处理。我们已经看到了这一切的开端，并且以后这一切都将在大语言模型内部实现。

Andrej Karpathy 最新视频盛赞 DeepSeek：R1 正在发现人类思考的逻辑并进行复现

大致来说，这与我们之前讨论的内容没有什么不同，以此作为基础，你可以对音频和图像进行标记化，并应用我们之前谈到的相同方法。所以这不是一个根本性的变化，只是我们需要添加一些标记。举个例子，对于音频的标记化，我们可以查看音频信号的频谱切片，然后添加更多的标记，并将它们加入到上下文窗口中，像之前一样进行训练。图像也是如此，我们可以使用图像块，并分别对这些块进行标记。

事实上，这种方法是有效的，并且在这个方向上已有很多早期的研究。所以我们可以创建代表音频、图像以及文本的标记流，将它们交替放入一起，并在一个模型中同时处理。这就是多模态的一个例子。

其次，人们现在很关心的一点是，现在我们总是把一些任务交给模型去处理，但仍然是我们负责组织任务的连贯执行来完成工作。模型目前还没有达到在长时间内以连贯且能纠错的方式执行这些任务的能力，所以它们无法完全将任务整合起来，执行这些长期运行的工作，但它们正在向这个方向发展，而且这种能力在逐渐提高。

不过在未来，我们将看到所谓的“智能体”，它们能够随着时间推移执行任务。但这些模型并不是无懈可击的，你需要监督它们，观察它们的工作，不过它们偶尔会来主动向你报告进展。所以在未来，我们将看到更多的能够执行长期任务的“智能体”，从而提升我们的工作效率，这也意味着人类将成为数字领域中智能体任务的监督者。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

郑佳美

编辑

发私信

当月热门文章