鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效

发布于 2024-6-19 13:03

浏览

0收藏

大型语言模型（LLMs）在自然语言理解和生成方面表现出色，但面对现实世界问题的多样性和复杂性，单一静态方法的推理能力有限。现有的推理技术，如思维链（Chain-of-Thoughts）、思维树（Tree-of-Thoughts）等，虽然在特定任务上有所提升，但未能在不同任务中持续实现最佳性能。

人类在认知过程中通过元推理（meta-reasoning）动态调整策略，以高效分配认知资源。受此启发，提出了元推理提示（Meta-Reasoning Prompting, MRP），以赋予LLMs类似的适应性推理能力。

元推理提示（Meta-Reasoning Prompting，简称MRP）的示意图，以及与标准推理和传统推理方法的比较差异。

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

MRP如何工作？

评估阶段：模型先看看有哪些解题方法可用，然后根据问题的特点，评估哪种方法可能最有效。
选择阶段：模型根据评估结果，选择最合适的解题方法。
应用阶段：使用选定的方法来解决问题。

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

通过使用多个广泛使用的基准测试评估MRP的有效性，结果表明MRP在不同任务中的表现达到或接近最佳状态。MRP特别擅长需要结合不同推理策略的任务，在更大的模型如GPT-4中表现尤为出色。

使用GPT4进行的实验：使用元推理提示（Meta-Reasoning Prompting）与其他独立方法在基准测试上的性能比较。加粗表示最佳性能，下划线表示次佳性能。

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

(a) 不同基准测试上的方法比较显示，引导大型语言模型（LLM）动态选择适当的推理方法，使元推理提示（MRP）在所有任务中持续实现更好的性能。(b) 将特定推理方法应用于所有基准测试的算术平均和调和平均性能表明，MRP在总体评估中始终表现卓越。

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

在GSM8K基准测试上的方法性能

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

微软研究院MRP：大模型动态选择最佳解题策略的元推理提示，比CoT、ToT更有效-AI.x社区

Meta Reasoning for Large Language Models
https://arxiv.org/pdf/2406.11698

本文转载自PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

深入理解思维树 (ToT)策略提示词设计

AIGC观察者 • 7370浏览 • 0回复
最新研究提出混合动态剪枝方法，升级Transformer推理效率

xuxiangda • 4701浏览 • 0回复
微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

xuxiangda • 6360浏览 • 0回复
大模型提示词进阶，零样本提示, 一次样本提示和少样本提示以及思维链(Chain of Thought, Cot)

AI探索时代 • 5708浏览 • 0回复
微软研究院新突破：如何让AI在专业领域更靠谱？

Halo咯咯 • 2521浏览 • 0回复
大语言模型时代，提示词才是王道：堪比专业翻译软件的提示词

sulu637 • 3030浏览 • 0回复
阿里巴巴研究院推出 XiYan-SQL：用于Text-to-SQL的多生成器集成人工智能框架

Halo咯咯 • 9490浏览 • 0回复
微软研究院推出的MarS：生成基础模型时代的统一金融市场模拟引擎

Halo咯咯 • 4776浏览 • 0回复
字节跳动AI研究院发布FullStack Bench和SandboxFusion：用于评估真实编程场景中LLM的综合基准测试工具

Halo咯咯 • 4157浏览 • 0回复
智源研究院等提出NOVA：迈向统一的多任务大模型

angel • 2853浏览 • 0回复
微软人工智能研究院推出 OLA-VLM：一种以视觉为中心的优化多模态大型语言模型的方法

Halo咯咯 • 3523浏览 • 0回复
微软亚洲研究院2025六大预测：AI Agents 将颠覆传统工作模式

AIGC新知 • 3156浏览 • 0回复
阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

Halo咯咯 • 5477浏览 • 0回复
如何高效地为「推理模型」编写最佳提示词？万字长文介绍

Baihai_IDP • 3482浏览 • 0回复
面向疾病管理的对话式人工智能 - Google研究院&DeepMind

知识图谱科技 • 2329浏览 • 0回复
微软亚洲研究院打造最强视觉元素定位模型

大语言模型论文跟踪 • 1637浏览 • 0回复
分析Anthropic元提示词，学习写出有效AI指令的关键方法

AI取经路 • 4746浏览 • 0回复
五款顶级模型谁才是最佳选择？

Halo咯咯 • 3169浏览 • 0回复
多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估

大模型自然语言处理 • 910浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

一篇200+文献的视觉强化学习技术最新综述 2天前发布
24个Agent工作流框架用哪个? 11个维度全面评测 2天前发布

热门推荐

AAAI 2025 | CAD-GPT：面向工业CAD精准建模的多模态大模型 0回复

一张图生成3A级游戏画面！腾讯混元全新开源Hunyuan-GameCraft 0回复

国产视频大模型突破！阿里最新开源Wan2.2，单卡生成电影级画面 0回复

阿里开源首个图像生成模型Qwen-Image：超强中文渲染能力刷新SOTA！ 0回复

六大智能体平台深度对比：从技术架构到行业落地，一篇讲透选型关键 0回复

上一篇：信息抽取哪家强？ChatGLM3、Qwen、Baichuan2、ChatGPT

下一篇： OpenAI最新套娃嵌入模型分析：256维的MTEB效果超过1536维

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载