AI 为什么突然会推理了？斯坦福最新课程揭秘背后三大核心技术精华

发布于 2025-8-20 07:49

浏览

1收藏

你可能已经发现，现在的大语言模型（LLM）似乎越来越「聪明」了。你问它一个脑筋急转弯，它不会直接猜错，而是会一步步分析；你给它一道复杂的应用题，它也能像学生一样，写出详细的解题步骤。

这种质变是如何发生的？AI 是如何从一个只会「背答案」的学渣，进化成一个懂得「举一反三」的学霸的？

就在 2025 年 4 月，斯坦福大学的一堂 Transformers 课程上，来自 Google DeepMind 的科学家 Denny Zhou，为我们完整揭示了让 LLM 实现强大推理能力的核心技术和思维变迁。这份内部课程材料，堪称是理解当前 AI 推理能力的最佳指南。

核心观点非常颠覆：大模型天生就具备推理能力，只是我们以前「问」错了方法。

核心一：推理的本质——生成「中间步骤」

我们首先要理解，什么是 LLM 的「推理」？

很简单，它不是直接从「问题」跳到「答案」，而是在这之间，生成一系列中间步骤或思考过程。

举个例子，你问 AI：「"artificial intelligence" 这两个词，每个单词的末尾字母拼起来是什么？」

没有推理的 AI 会直接回答：le。它可能是猜的，也可能是在庞大的数据库里见过类似的问题。但你不知道它怎么想的，错了你也不知道错在哪。
会推理的 AI 会这样回答：

"artificial" 的最后一个字母是l。

"intelligence" 的最后一个字母是e。

把l 和e 拼起来，就是le。

这个「思考过程」，就是推理。它为什么如此重要？因为理论已经证明，对于任何一个复杂的问题，只要允许 AI 生成足够多的中间步骤（也就是增加输出的长度），即便是小模型也能解决。反之，如果强迫它直接给出答案，要么需要一个巨大无比的模型，要么就根本解决不了。

这就好比做一道复杂的数学题，让你心算出答案很难，但给你一张草稿纸，让你一步步写下来，就简单多了。这些中间步骤，就是 AI 的「草稿纸」。

核心二：如何「唤醒」AI 的推理能力？从外部引导到内部训练

过去有一个普遍的误解：认为预训练好的 LLM 无法进行推理，必须经过特殊的微调或复杂的提示（Prompting）才行。

课程指出：这是错的！

预训练 LLM 已经准备好进行推理了。我们需要的，只是改变「解码」策略，也就是改变我们从模型中获取答案的方式。

方法 1：解码策略 - 更聪明的「问」法

1. 思维链解码 (Chain-of-Thought Decoding)

这是最直接有效的方法。当我们向模型提问时，不要满足于它给出的第一个、最快的答案（这叫「贪心解码」Greedy Decoding），因为这个答案很可能是未经思考的「直觉反应」。

正确的做法是，让模型生成多个可能的回答，然后我们挑选出那个包含推理过程、并且对最终答案最自信的回答。

比如问：「我有 3 个苹果，我爸爸比我多 2 个，我们一共几个？」。

贪心解码可能直接输出：5个 (错误)。
多个候选答案中可能包含：你有3个苹果，你爸爸比你多2个，所以他有5个苹果。3+5=8。我们一共有8个苹果。 (正确)。

通过对比，我们就能选出那个真正「思考」过的答案。

2. 自我一致性 (Self-Consistency) - AI 版的「少数服从多数」

这个技巧堪称「大力出奇迹」，但效果惊人。它的核心思想是：让模型用多种不同的思路（随机抽样）去解决同一个问题，然后选择出现频率最高的那个答案。

这就像请一群专家解决问题，他们可能过程各不相同，但如果大多数人都得出了同一个结论，那么这个结论大概率是正确的。

一个关键点是：我们投票的是最终答案，而不是推理路径。比如一个问题，模型生成了 3 个回答：

回答 1：16 - 3 - 4 = 9，所以赚 $18。
回答 2：(16 - 4 - 3) * 2 = $18 (计算有误，但答案碰巧正确)。
回答 3：16 - 3 = 13，13 - 4 = 9，所以赚 $18。

虽然推理过程不同，但最终答案「18」出现了两次，我们就选它。数据显示，加入了自我一致性（SC）后，模型的准确率能获得巨大提升。例如在 GSM8K 数学测试集上，PaLM 模型使用 CoT + SC 后，准确率从 58% 跃升至 75%，PaLM-2 更是达到了 92%。

一致性越高的答案，准确率也越高，这背后存在着强关联。

方法 2：提示工程 (Prompting) - 在问题里加「引导语」

这是大家最熟悉的方法，主要有两种：

少样本思维链 (Few-shot CoT):在提问前，先给 AI 看几个类似问题的解题范例。
零样本思维链 (Zero-shot CoT):在问题的结尾，加上一句神奇的咒语，如「让我们一步步思考」（Let's think step by step）。

这种方法简单有效，但也有明显的缺点：少样本 CoT 需要针对不同任务精心设计范例，而零样本 CoT 虽然通用，但效果要差很多。课程的作者甚至吐槽：这种方式在现实中很怪，你问别人问题时，会先说一堆范例，或者在结尾加一句「请一步步思考」吗？当然不会！

方法 3：模型微调 - 把推理能力「内化」成直觉

相比于外部引导，更高级的方法是把推理能力直接训练进模型里。

监督微调 (SFT - Supervised Finetuning):

做法：收集大量由人类标注好解题步骤的问题，然后让模型学习这些「标准答案」。
优点：方法很通用。
缺点：泛化能力很差。模型只是在死记硬背，遇到没有见过的题型就很容易出错，即使增加再多的数据，效果提升也有限。

强化学习微调 (RL Finetuning) - 让 AI 「自我进化」SFT 的失败启发了科学家们。他们回归到机器学习的第一性原理：直接优化我们想要的东西！我们想要的不是模型能背诵人类的解法，而是它能自己找到正确答案的能力。于是，一种类似 AlphaGo 的「自我进化」方法诞生了：这种方法之所以比 SFT 效果好，因为它让模型在自己的认知空间里探索，而不是强行模仿人类。正如 AI 先驱 Rich Sutton 所说：「我们想要的是能像我们一样去发现的 AI，而不是一个只包含我们已有发现的 AI。」 RL 微调的优点是泛化能力强，但缺点是需要一个可靠的自动验证器，而并非所有任务都能轻松验证对错。

步骤 1:

让模型自己去生成大量问题的解题步骤。

步骤 2:

用一个「验证器」（Verifier）来判断哪些解法是正确的，哪些是错误的。

步骤 3:

用强化学习算法，奖励那些能导出正确答案的推理路径，惩罚那些错误的路径。

重复这个过程

，模型就会像一个刷了无数套模拟题、并有标准答案订正的学生，推理能力越来越强。

核心三：前沿技术展望——推理的未来是「检索」与「抽象」

当模型掌握了基本的推理能力后，新的前沿方向是将推理与外部知识和更高维度的思考结合起来。

检索 + 推理 (Retrieval + Reasoning):这就像开卷考试。在解决一个新问题时，先让模型去知识库里检索一个相关的、已经解决的问题作为参考，然后再进行推理。这能极大提高模型处理复杂问题的能力，尤其是需要特定知识的领域。
退一步思考 (Step-Back Prompting):在直接回答一个复杂问题前，先引导模型「退一步」，思考这个问题背后依赖的基本原理或概念。

原始问题：理想气体的温度提高 2 倍，体积提高 8 倍，压力会怎么变？
退一步思考的问题：这个问题背后的物理原理是什么？
回答：理想气体定律 PV=nRT。
基于原理再推理：将新数值代入公式，最终得出压力变为原来的 1/4。这种先抽象再推理的方式，能有效避免模型在复杂细节中迷失方向，显著提高准确性。

总结：通往强大 AI 推理的四大法则

这堂来自斯坦福和 Google DeepMind 的课程，为我们勾勒出了一条清晰的路径图：

推理 > 无推理：鼓励模型生成中间步骤，这是实现复杂问题求解的基础。
强化学习微调 > 监督微调：让模型自我探索和进化，比单纯模仿人类的泛化能力更强。
多答案聚合 > 单一答案：利用「自我一致性」等方法，通过群体智慧大幅提升结果的可靠性。
检索/抽象 + 推理 > 单纯推理：结合外部知识和更高维度的思考，是通往更强大通用智能的关键。

AI 的推理能力并非凭空而来，而是科学家们遵循第一性原理，通过一系列精巧的解码策略、训练范式和提示技巧，一步步「唤醒」和「塑造」的结果。正如物理学家费曼所说：「真相，总是比你想象的更简单。」未来的突破，将在于如何解决那些没有唯一标准答案的开放性问题，以及如何将这些强大的推理能力，真正应用到解决现实世界的具体问题中去。

本文转载自草台AI，作者：RangerEX

标签

核心技术

LLM

51CTO

51CTO博客

51CTO学堂

AI 为什么突然会推理了？斯坦福最新课程揭秘背后三大核心技术精华

核心一：推理的本质——生成「中间步骤」

核心二：如何「唤醒」AI 的推理能力？从外部引导到内部训练

方法 1：解码策略 - 更聪明的「问」法

方法 2：提示工程 (Prompting) - 在问题里加「引导语」

方法 3：模型微调 - 把推理能力「内化」成直觉

核心三：前沿技术展望——推理的未来是「检索」与「抽象」

总结：通往强大 AI 推理的四大法则

目录

51CTO

51CTO博客

51CTO学堂

AI 为什么突然会推理了？斯坦福最新课程揭秘背后三大核心技术 精华

核心一：推理的本质——生成「中间步骤」

核心二：如何「唤醒」AI 的推理能力？从外部引导到内部训练

方法 1：解码策略 - 更聪明的「问」法

方法 2：提示工程 (Prompting) - 在问题里加「引导语」

方法 3：模型微调 - 把推理能力「内化」成直觉

核心三：前沿技术展望——推理的未来是「检索」与「抽象」

总结：通往强大 AI 推理的四大法则

目录

AI 为什么突然会推理了？斯坦福最新课程揭秘背后三大核心技术精华