思维链(COT)+反思(Reflection)+语言强化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?

发布于 2025-5-14 06:55
浏览
0收藏

已有的大模型能否通过Prompt Engineering达到O1类似的推理水平?

我见过很多尝试,在个别案例上有观察到惊艳的推理效果,但大多没有普遍提升已有大模型的推理能力。今天看到这个方法,感觉是通过Prompt Engineering可以有效普遍提升大模型的推理能力。以下就是那个Magic Prompt, 先睹为快。

思维链(COT)+反思(Reflection)+语言强化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社区

作者准备了50道需要长推理过程的问题,分别测试几种场景:

  • Claude Sonnet + 上述Prompt
  • Clause Sonnet
  • Llama3.18B + 上述Prompt
  • Llama3.18B
  • ChatGPT 4o + 上述Prompt
  • ChatGPT 4o
  • ChatGPT o1


实验结果如下,蓝色的是使用了“上述Prompt”的测试场景,黄色的没有使用“上述Prompt”。对比的对象是o1,因此o1没有使用“上述Prompt”。

思维链(COT)+反思(Reflection)+语言强化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社区

测试结果显示,动态思维链(Dynamic CoT)、反思(Reflection)和语言强化学习(Verbal Reinforcement Learning)技术的应用显著提升了大多数模型的推理性能,特别是Claude Sonnet和Llama 3.1 8b。

A. 应用了“上述Prompt”Claude Sonnet得分最高(40/48),在数学、物理和化学问题上展现了强大的性能。Llama 3.1 8b(33/48)和GPT-4O(36/48)也显示出显著的进步。

B. 没有应用“上述Prompt”除了O1之外的所有模型性推理能都有所下降。

我们可以观察到,Claude Sonnet 3.5达到了O1的推理水平。


另外一个博主使用了不同的测试题目测试后,认为“上述Prompt”可以大幅提高大模型的推理能力,但“Claude Sonnet + 上述Prompt” 还不足以达到o1的推理水平。如下

思维链(COT)+反思(Reflection)+语言强化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社区

​本文转载自​​​后向传播​​​,作者: 张发恩


收藏
回复
举报
回复
相关推荐