一篇大模型Agentic框架到应用最新综述

发布于 2025-10-9 07:55
浏览
0收藏


一篇大模型Agentic框架到应用最新综述-AI.x社区

首篇系统拆解“大模型Agentic推理框架”的综述:不聊训练,只聊“怎么把 LLM 组织成会思考、会协作、会调工具的Agent”,并横跨科学发现、医疗、软件工程、社会经济模拟四大战场,给出统一语言、统一视角、统一评测。

为什么值得关注?

一篇大模型Agentic框架到应用最新综述-AI.x社区

图 1:LLM 代理框架论文&引用爆发式增长(2023 起跳)

维度

过去

这篇综述

视角

模型中心(怎么训)

框架中心(怎么搭)

分类

零散案例

三级递进 taxonomy

评测

各玩各的

跨领域统一指标/数据集

场景

单点应用

4 大场景 30+ 子任务全覆盖

一、统一语言:把“代理推理”形式化

论文先给出一套通用符号(表 1)与通用算法 1,任何框架都可看成:

初始上下文 → 多步动作(推理/工具/反思)→ 终止条件 → 输出

一篇大模型Agentic框架到应用最新综述-AI.x社区

Alg-1 通用推理循环

一篇大模型Agentic框架到应用最新综述-AI.x社区

Table1 符号

三级递进 taxonomy

一篇大模型Agentic框架到应用最新综述-AI.x社区

总览

图 2:单智能体 → 工具 → 多智能体,能力逐级叠加

层级

关键问题

代表技巧

单智能体

如何自己想的更好

角色扮演、链式思考、自我精炼

工具-based

如何会调外部资源

API/插件/中间件、工具选择、并行调用

多智能体

如何组队协作

中央/分布式/层级架构、合作-竞争-谈判

1. 单智能体:Prompt 工程 + 自我提升

一篇大模型Agentic框架到应用最新综述-AI.x社区

Fig-3 Prompt 四象限

图 3:角色、环境、任务、示例四维 Prompt 工程

一篇大模型Agentic框架到应用最新综述-AI.x社区

Fig-4 自我提升三范式

图 4:反思、迭代优化、交互学习

案例速览

  • Reflexion:失败 → 文字反思 → 更新上下文 → 重试
  • Self-Refine:生成→批评→重写,直到满足自定义标准 𝒮

2. 工具-based:让 LLM“长手脚”

一篇大模型Agentic框架到应用最新综述-AI.x社区

Fig-5 工具流水线

图 5:集成 → 选择 → 使用

子维度

技巧

集成

API(REST)、插件(本地 RAG)、中间件(统一封装)

选择

零样本推理 / 规则映射 / 在线学习

使用

顺序链、并行批、迭代微调

名场面

  • ChemCrow:18 种化学工具链式调用,自主合成有机催化剂
  • LLM-Compiler:并行调度 10+ API, latency ↓40%

3. 多智能体:组队打副本

一篇大模型Agentic框架到应用最新综述-AI.x社区

Fig-6 组织×交互双轴

图 6:组织架构(中央/分布式/层级)× 交互协议(合作/竞争/谈判)

组织

适用场景

案例

中央

全局最优、严格管控

MetaGPT(模拟软件公司)

分布式

鲁棒、容错

MADebate(多代理辩论)

层级

流程清晰、SOP 严格

ChatDev(瀑布式开发)

四大应用场景全景

一篇大模型Agentic框架到应用最新综述-AI.x社区

Fig-7 应用地图

图 7:科学发现 / 医疗 / 软件工程 / 社会经济模拟 细分任务一览

1. 科学发现

一篇大模型Agentic框架到应用最新综述-AI.x社区

子领域

代理技巧

代表工作

数学

多代理 Lean4 证明

MA-LoT、ProverAgent

天文

光谱→假设流水线

AstroAgents

地学

GIS 工具链 + MCTS

GeoAgent、GeoMap-Agent

生化

分子设计、量子化学

ChemCrow、El Agente

评测速览

  • 指标:药物相似性、合成可及性、结合亲和力
  • 数据集:MoleculeNet、CrossDocked、CheMBL

一篇大模型Agentic框架到应用最新综述-AI.x社区

表3. 生物化学和材料科学中代理推理框架的评估策略概览。

2. 医疗

一篇大模型Agentic框架到应用最新综述-AI.x社区

场景

关键能力

案例

诊断助手

多科会诊辩论

MedAgents、RareAgents

临床管理

试验预测、用药推荐

ClinicalAgent、TxAgent

环境模拟

可进化代理医院

Agent Hospital、AI Hospital

评测速览

  • 基准:MedQA、PubMedQA、MIMIC-IV、MVME
  • 指标:诊断准确率、安全率、人类一致性

一篇大模型Agentic框架到应用最新综述-AI.x社区

3. 软件工程

任务

代理策略

案例

代码生成

多角色 TDD

AgentCoder、MapCoder

程序修复

故障定位→补丁→验证

RepairAgent、OrcaLoca

全生命周期

模拟软件公司 SOP

MetaGPT、ChatDev

一篇大模型Agentic框架到应用最新综述-AI.x社区

4. 社会经济模拟

一篇大模型Agentic框架到应用最新综述-AI.x社区

方向

代理能力

案例

社会

沙盒行为涌现

Generative Agents、SocioVerse(10 M 用户)

经济

股票市场仿真

StockAgent、FinRobot

一篇大模型Agentic框架到应用最新综述-AI.x社区

https://arxiv.org/pdf/2508.17692
LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios

本文转载自PaperAgent

已于2025-10-9 07:55:48修改
收藏
回复
举报
回复
相关推荐