AI 为什么突然会推理了?斯坦福最新课程揭秘背后三大核心技术 精华

发布于 2025-8-20 07:49
浏览
1收藏

你可能已经发现,现在的大语言模型(LLM)似乎越来越「聪明」了。你问它一个脑筋急转弯,它不会直接猜错,而是会一步步分析;你给它一道复杂的应用题,它也能像学生一样,写出详细的解题步骤。

这种质变是如何发生的?AI 是如何从一个只会「背答案」的学渣,进化成一个懂得「举一反三」的学霸的?

就在 2025 年 4 月,斯坦福大学的一堂 Transformers 课程上,来自 Google DeepMind 的科学家 Denny Zhou,为我们完整揭示了让 LLM 实现强大推理能力的核心技术和思维变迁。这份内部课程材料,堪称是理解当前 AI 推理能力的最佳指南。

核心观点非常颠覆:大模型天生就具备推理能力,只是我们以前「问」错了方法。

核心一:推理的本质——生成「中间步骤」

我们首先要理解,什么是 LLM 的「推理」?

很简单,它不是直接从「问题」跳到「答案」,而是在这之间,生成一系列中间步骤或思考过程

举个例子,你问 AI:「"artificial intelligence" 这两个词,每个单词的末尾字母拼起来是什么?」

  • 没有推理的 AI 会直接回答:​le​​。它可能是猜的,也可能是在庞大的数据库里见过类似的问题。但你不知道它怎么想的,错了你也不知道错在哪。
  • 会推理的 AI 会这样回答:

​"artificial"​​​ 的最后一个字母是​​l​​。

​"intelligence"​​​ 的最后一个字母是​​e​​。

把​​l​​​ 和​​e​​ 拼起来,就是​​le​​。

这个「思考过程」,就是推理。它为什么如此重要?因为理论已经证明,对于任何一个复杂的问题,只要允许 AI 生成足够多的中间步骤(也就是增加输出的长度),即便是小模型也能解决。反之,如果强迫它直接给出答案,要么需要一个巨大无比的模型,要么就根本解决不了。

这就好比做一道复杂的数学题,让你心算出答案很难,但给你一张草稿纸,让你一步步写下来,就简单多了。这些中间步骤,就是 AI 的「草稿纸」。

核心二:如何「唤醒」AI 的推理能力?从外部引导到内部训练

过去有一个普遍的误解:认为预训练好的 LLM 无法进行推理,必须经过特殊的微调或复杂的提示(Prompting)才行。

课程指出:这是错的!

预训练 LLM 已经准备好进行推理了。我们需要的,只是改变「解码」策略,也就是改变我们从模型中获取答案的方式。

方法 1:解码策略 - 更聪明的「问」法

1. 思维链解码 (Chain-of-Thought Decoding)

这是最直接有效的方法。当我们向模型提问时,不要满足于它给出的第一个、最快的答案(这叫「贪心解码」Greedy Decoding),因为这个答案很可能是未经思考的「直觉反应」。

正确的做法是,让模型生成多个可能的回答,然后我们挑选出那个包含推理过程、并且对最终答案最自信的回答

比如问:「我有 3 个苹果,我爸爸比我多 2 个,我们一共几个?」。

  • 贪心解码可能直接输出:​5个​​ (错误)。
  • 多个候选答案中可能包含:​你有3个苹果,你爸爸比你多2个,所以他有5个苹果。3+5=8。我们一共有8个苹果。​​ (正确)。

通过对比,我们就能选出那个真正「思考」过的答案。

2. 自我一致性 (Self-Consistency) - AI 版的「少数服从多数」

这个技巧堪称「大力出奇迹」,但效果惊人。它的核心思想是:让模型用多种不同的思路(随机抽样)去解决同一个问题,然后选择出现频率最高的那个答案

这就像请一群专家解决问题,他们可能过程各不相同,但如果大多数人都得出了同一个结论,那么这个结论大概率是正确的。

一个关键点是:我们投票的是最终答案,而不是推理路径。比如一个问题,模型生成了 3 个回答:

  • 回答 1:16 - 3 - 4 = 9,所以赚 $18。
  • 回答 2:(16 - 4 - 3) * 2 = $18 (计算有误,但答案碰巧正确)。
  • 回答 3:16 - 3 = 13,13 - 4 = 9,所以赚 $18。

虽然推理过程不同,但最终答案「18」出现了两次,我们就选它。数据显示,加入了自我一致性(SC)后,模型的准确率能获得巨大提升。例如在 GSM8K 数学测试集上,PaLM 模型使用 CoT + SC 后,准确率从 58% 跃升至 75%,PaLM-2 更是达到了 92%。

一致性越高的答案,准确率也越高,这背后存在着强关联。

方法 2:提示工程 (Prompting) - 在问题里加「引导语」

这是大家最熟悉的方法,主要有两种:

  1. 少样本思维链 (Few-shot CoT):在提问前,先给 AI 看几个类似问题的解题范例。
  2. 零样本思维链 (Zero-shot CoT):在问题的结尾,加上一句神奇的咒语,如「让我们一步步思考」(Let's think step by step)。

这种方法简单有效,但也有明显的缺点:少样本 CoT 需要针对不同任务精心设计范例,而零样本 CoT 虽然通用,但效果要差很多。课程的作者甚至吐槽:这种方式在现实中很怪,你问别人问题时,会先说一堆范例,或者在结尾加一句「请一步步思考」吗?当然不会!

方法 3:模型微调 - 把推理能力「内化」成直觉

相比于外部引导,更高级的方法是把推理能力直接训练进模型里。

  1. 监督微调 (SFT - Supervised Finetuning):
  • 做法:收集大量由人类标注好解题步骤的问题,然后让模型学习这些「标准答案」。
  • 优点:方法很通用。
  • 缺点:泛化能力很差。模型只是在死记硬背,遇到没有见过的题型就很容易出错,即使增加再多的数据,效果提升也有限。
  1. 强化学习微调 (RL Finetuning) - 让 AI 「自我进化」SFT 的失败启发了科学家们。他们回归到机器学习的第一性原理:直接优化我们想要的东西!我们想要的不是模型能背诵人类的解法,而是它能自己找到正确答案的能力。于是,一种类似 AlphaGo 的「自我进化」方法诞生了:这种方法之所以比 SFT 效果好,因为它让模型在自己的认知空间里探索,而不是强行模仿人类。正如 AI 先驱 Rich Sutton 所说:「我们想要的是能像我们一样去发现的 AI,而不是一个只包含我们已有发现的 AI。」  RL 微调的优点是泛化能力强,但缺点是需要一个可靠的自动验证器,而并非所有任务都能轻松验证对错。

步骤 1:

  •  让模型自己去生成大量问题的解题步骤。

步骤 2:

  •  用一个「验证器」(Verifier)来判断哪些解法是正确的,哪些是错误的。

步骤 3:

  •  用强化学习算法,奖励那些能导出正确答案的推理路径,惩罚那些错误的路径。

重复这个过程

  • ,模型就会像一个刷了无数套模拟题、并有标准答案订正的学生,推理能力越来越强。

核心三:前沿技术展望——推理的未来是「检索」与「抽象」

当模型掌握了基本的推理能力后,新的前沿方向是将推理与外部知识和更高维度的思考结合起来。

  1. 检索 + 推理 (Retrieval + Reasoning):这就像开卷考试。在解决一个新问题时,先让模型去知识库里检索一个相关的、已经解决的问题作为参考,然后再进行推理。这能极大提高模型处理复杂问题的能力,尤其是需要特定知识的领域。
  2. 退一步思考 (Step-Back Prompting):在直接回答一个复杂问题前,先引导模型「退一步」,思考这个问题背后依赖的基本原理或概念
  • 原始问题:理想气体的温度提高 2 倍,体积提高 8 倍,压力会怎么变?
  • 退一步思考的问题:这个问题背后的物理原理是什么?
  • 回答:理想气体定律 PV=nRT。
  • 基于原理再推理:将新数值代入公式,最终得出压力变为原来的 1/4。这种先抽象再推理的方式,能有效避免模型在复杂细节中迷失方向,显著提高准确性。

总结:通往强大 AI 推理的四大法则

这堂来自斯坦福和 Google DeepMind 的课程,为我们勾勒出了一条清晰的路径图:

  1. 推理 > 无推理:鼓励模型生成中间步骤,这是实现复杂问题求解的基础。
  2. 强化学习微调 > 监督微调:让模型自我探索和进化,比单纯模仿人类的泛化能力更强。
  3. 多答案聚合 > 单一答案:利用「自我一致性」等方法,通过群体智慧大幅提升结果的可靠性。
  4. 检索/抽象 + 推理 > 单纯推理:结合外部知识和更高维度的思考,是通往更强大通用智能的关键。

AI 的推理能力并非凭空而来,而是科学家们遵循第一性原理,通过一系列精巧的解码策略、训练范式和提示技巧,一步步「唤醒」和「塑造」的结果。正如物理学家费曼所说:「真相,总是比你想象的更简单。」 未来的突破,将在于如何解决那些没有唯一标准答案的开放性问题,以及如何将这些强大的推理能力,真正应用到解决现实世界的具体问题中去。

本文转载自​​​草台AI​​​,作者:RangerEX

收藏 1
回复
举报
回复
相关推荐