
大语言模型Agent上下文工程综述:AI 的 “上下文密码” ,从提示词到多智能体,这篇综述讲透了 精华
你有没有发现,当你给AI输入很长的内容时,它常常会“忘记”中间的关键信息?或者明明给了正确资料,它却还是编出错误答案?其实,这些问题的根源,不在于模型不够强,而在于我们给模型的“上下文”没管好。现在,一门叫“上下文工程”的新学科正在崛起,它不仅能让AI记住百万字的内容,还能让多个AI协作解决复杂任务。但这门技术背后,还隐藏着一个让研究者头疼的“能力不对称”难题——AI能看懂复杂信息,却写不出同等复杂的内容。这到底是怎么回事?上下文工程又能给AI带来哪些革命性变化?
大型语言模型(比如GPT系列)的表现好坏,很大程度上取决于给它们的“上下文”——也就是输入的信息。但以前的“提示工程”只能简单设计输入,没法满足复杂应用的需求。这篇文章提出的“上下文工程”,就是要系统地优化这些上下文信息,让模型能更好地处理超长文本、整合各种知识、记住过去的交互,甚至和其他模型协作。这很重要,因为它能解决当前模型“记不住长文本中间内容”“容易瞎编”“不会用工具”等问题,让AI系统更实用,比如帮医生分析病历、帮学生查资料、帮公司管理知识等,未来潜力巨大。
摘要&解读
大型语言模型(LLMs)的性能从根本上取决于推理过程中提供的上下文信息。本综述介绍了上下文工程这一正式学科,它超越了简单的提示设计,涵盖了对LLMs信息 payload 的系统性优化。我们提出了一个全面的分类法,将上下文工程分解为其基础组件和将这些组件集成到智能系统中的复杂实现。我们首先考察基础组件:(1)上下文检索与生成,包括基于提示的生成和外部知识获取;(2)上下文处理,解决长序列处理、自我优化和结构化信息集成;(3)上下文管理,包括内存层次结构、压缩和优化。然后,我们探讨这些组件如何在架构上集成以创建复杂的系统实现:(1)检索增强生成(RAG),包括模块化、智能体化和图增强架构;(2)内存系统,支持持久交互;(3)工具集成推理,用于函数调用和环境交互;(4)多智能体系统,协调通信和编排。通过对1400多篇研究论文的系统分析,我们的综述不仅建立了该领域的技术路线图,还揭示了一个关键的研究差距:模型能力之间存在根本的不对称性。虽然当前模型在先进的上下文工程增强下,在理解复杂上下文方面表现出显著的能力,但它们在生成同样复杂的长文本输出方面存在明显的局限性。解决这一差距是未来研究的一个决定性优先事项。最终,本综述为推进上下文感知人工智能的研究人员和工程师提供了一个统一的框架。
研究背景: 大型语言模型(LLMs)在自然语言理解和生成方面取得了巨大成功,但其性能严重依赖于输入的“上下文”信息。然而,当前LLMs面临诸多局限:自注意力机制处理长文本时计算开销大,存在“中间迷失”现象;容易产生错误信息(幻觉);缺乏持久记忆能力,难以进行长对话或复杂任务;与外部工具、知识源的交互能力有限。传统的“提示工程”仅能简单设计输入,无法满足复杂应用对上下文信息的系统性优化需求。因此,“上下文工程”应运而生,旨在通过系统地优化上下文的检索与生成、处理和管理,突破LLMs的固有局限,提升其在实际场景中的效用。
研究贡献:
1. 首次提出“上下文工程”的正式定义和系统分类法,将其从分散的技术实践整合为一门学科,明确其与提示工程的区别与演进关系;
2. 构建了“基础组件-系统实现”的双层框架,系统梳理了上下文检索与生成、处理、管理三大基础组件,以及检索增强生成(RAG)、内存系统、工具集成推理、多智能体系统四大系统实现,涵盖1400多篇研究论文;
3. 指出当前模型存在“能力不对称”的关键研究差距——在上下文理解能力显著提升的同时,生成复杂长文本的能力仍有明显局限;
4. 提出上下文缩放的两个维度(长度缩放、多模态和结构缩放),为技术发展提供方向;5. 系统分析了各技术的评估方法、挑战及未来方向,为领域研究提供统一框架。
实现设计:
1. 基础组件设计:①上下文检索与生成:整合提示工程(零样本/少样本、思维链等)、外部知识检索(RAG、知识图谱)、动态组装(编排机制、自动优化);②上下文处理:针对长文本开发线性注意力、稀疏注意力等机制,结合自我优化(迭代反馈、元学习)、多模态整合(跨模态表示)、结构化知识处理(图神经网络集成);③上下文管理:构建层次化内存(工作/短期/长期记忆),开发内容可寻址内存、上下文压缩(标记级选择、分块压缩)等技术。
2. 系统实现设计:①RAG:模块化架构(文档加载-分块-嵌入-检索-生成),扩展为智能体化RAG(检索规划、反思机制)和图增强RAG(知识图谱引导检索);②内存系统:基于认知科学设计层次化内存架构,开发记忆增强智能体(经验学习、个性化记忆);③工具集成:定义函数调用规范,实现推理规划-工具调用-结果整合的闭环,支持数字与物理环境交互;④多智能体系统:设计通信协议(消息格式、意图表达)、编排机制(任务分配、冲突解决)和协调策略(集中式/分布式协调)。
实验结果:
1. 长上下文处理技术:LongNet将Transformer复杂度从二次降至线性,支持百万级标记;StreamingLLM处理400万标记序列时加速22.2倍;
2. 自我优化方法:Self-Refine使GPT-4性能提升约20%,思维树(ToT)将24点游戏成功率从4%提高到74%;
3. RAG系统:在问答任务中,知识图谱增强的RAG使MRR达77.6%,BLEU值提升0.32;
4. 内存系统:MemGPT通过虚拟内存管理实现超长对话,LongMem的时间衰减机制有效处理长期依赖
5. 上下文压缩:LLMLingua实现20倍压缩,保持任务性能;
6. 多智能体协作:与单智能体相比,多智能体系统在代码生成等任务上Pass@1指标相对提升29.9-47.1%。这些结果验证了上下文工程技术在提升模型性能、效率和适用性方面的有效性。
1. 引言
LLMs的出现标志着人工智能领域的范式转变,在自然语言理解、生成和推理方面展示出前所未有的能力[103, 1059, 453]。然而,这些模型的性能和功效从根本上取决于它们收到的上下文。这种上下文——从简单的指令提示到复杂的外部知识库——是引导其行为、增强其知识和释放其能力的主要机制。随着LLMs从基本的指令遵循系统演变为复杂应用的核心推理引擎,设计和管理其信息 payload 的方法相应地演变为上下文工程这一正式学科[25, 1256, 1060]。
上下文工程的领域以爆炸性的速度扩展,导致了专门但分散的研究领域的激增。我们将这一领域概念化为由基础组件及其后续实现组成。基础组件通过三个关键阶段代表上下文工程的系统流程:上下文检索与生成,包括基于提示的生成和外部知识获取[25, 591, 48];上下文处理,涉及长序列处理、自我优化机制和结构化信息集成[196, 735, 489];以及上下文管理,解决内存层次结构、压缩技术和优化策略[1362, 1074, 813]。
这些基础组件作为更复杂、面向应用的实现的构建块,将LLMs与外部现实联系起来。这些系统包括高级检索增强生成(RAG),它已演变为用于动态知识注入的模块化和智能体化架构[591, 312, 965, 311];模仿人类认知能力以实现持久信息保留的显式内存系统[1182, 935, 1362];以及整个智能智能体系统生态系统。后一类代表了上下文工程的巅峰,其中智能体利用函数调用和工具集成推理与世界交互[931, 858, 663],并依靠复杂的智能体通信协议和上下文编排在多智能体配置中实现复杂目标[356, 246, 894, 128]。
虽然这些领域中的每一个都产生了大量创新,但它们主要是孤立研究的。这种分散的发展掩盖了技术之间的基本联系,并为寻求理解更广泛领域的研究人员和旨在有效利用这些方法的从业者创造了重大障碍。该领域迫切需要一个统一的框架,系统地组织这些多样化的技术,阐明其基本原则,并阐明其相互依赖关系。
为了弥补这一关键差距,本综述首次全面系统地回顾了LLMs的上下文工程。我们的主要贡献是一种新颖的、结构化的分类法,对用于设计、管理和优化上下文的多方面技术进行分类。这种分类法将该领域组织成连贯的类别,区分基础组件和它们集成到复杂系统实现中的情况。通过这个框架,我们:(1)提供每个领域最先进技术的清晰结构化概述;(2)分析不同方法的核心机制、优势和局限性;(3)识别总体挑战并规划未来研究的有前景的方向。这项工作既是导航上下文工程复杂领域的技术路线图,也是促进更深入理解和催化未来创新的基础。
本文的其余部分组织如下。在讨论相关工作并正式定义上下文工程之后,我们首先考察该领域的基础组件,包括上下文检索与生成、上下文处理和上下文管理。然后,我们探讨它们的系统实现,包括检索增强生成、内存系统、工具集成推理和多智能体系统。最后,我们讨论评估方法、未来研究方向,并总结综述。图1提供了我们分类法的全面概述,说明了技术的层次组织及其在上下文工程领域内的关系。
2. 相关工作
LLMs的快速成熟催生了大量旨在描绘其多方面领域的综述文献。现有的工作虽然有价值,但主要集中在我们定义为上下文工程的更广泛领域内的特定垂直领域。我们的综述旨在通过提供一个水平的、统一的分类法来补充这些努力,该分类法区分基础组件和它们集成到复杂系统中的情况,从而弥合这些专门领域。
基础组件 许多综述已经讨论了构成有效上下文操作核心技术能力的上下文工程基础组件。上下文检索与生成的挑战包括提示工程方法和外部知识获取技术。关于提示工程的综述已经分类了用于指导LLM行为的大量技术,从基本的少样本方法到先进的结构化推理框架[25, 253, 1313]。外部知识检索和集成技术,特别是通过知识图谱和结构化数据源,在综述表示技术、集成范例以及在增强LLMs事实基础方面的应用的工作中得到了回顾[483, 428, 817, 889]。
例如,思维链[1138]、零样本CoT[553]、ToT[1246]、GoT[69]、自一致性[1114]、ReAct[1245]、Auto-CoT[1099]、自动提示[307]、CLEAR框架[702]、RAG[591]、认知提示[558]、KAPING[48]、动态组装[307]等。
3. 为什么需要上下文工程?
随着大型语言模型(LLMs)从简单的指令遵循系统演变为复杂、多方面应用的核心推理引擎,与它们交互的方法也必须演进。“提示工程”一词虽然基础,但已不足以涵盖现代AI系统所需的信息 payload 的设计、管理和优化的全部范围。这些系统不是在单一的静态文本字符串上操作;它们利用动态、结构化和多方面的信息流。为了应对这一点,我们引入并形式化了上下文工程学科。
3.1. 上下文工程的定义
这种贝叶斯公式提供了一种原则性的方法来处理不确定性,通过更新先验来执行自适应检索,并在多步推理任务中维持关于上下文的信念状态。
维度 | 提示工程 | 上下文工程 |
模型 | C = 提示(静态字符串) | C = A(c₁, c₂, ..., cₙ)(动态、结构化组装) |
目标 | arg max 提示 Pₜ(Y | 提示) |
复杂性 | 在字符串空间上手动或自动搜索。 | 系统级优化F = {A, Retrieve, Select, ...}。 |
信息 | 信息内容在提示中是固定的。 | 旨在在约束 |
状态 | 主要是无状态的。 | 本质上是有状态的,具有用于c_mem和c_state的显式组件。 |
可扩展性 | 随着长度和复杂性增加,脆弱性增加。 | 通过模块化组合管理复杂性。 |
错误分析 | 手动检查和迭代改进。 | 对各个上下文函数的系统评估和调试。 |
表1:提示工程和上下文工程范式的比较。
总之,上下文工程提供了构建、理解和优化复杂的、上下文感知的AI系统所需的正式、系统的框架,这些系统正在定义该领域的未来。它将重点从提示设计的“艺术”转向信息物流和系统优化的“科学”。
上下文缩放 上下文缩放包括两个基本维度,共同定义了上下文信息处理的范围和复杂性。第一个维度,长度缩放,解决了处理超长序列的计算和架构挑战,将上下文窗口从数千个扩展到数百万个标记,同时保持对扩展叙述、文档和交互的连贯理解。这涉及复杂的注意力机制、内存管理技术和架构创新,使模型能够在极大扩展的输入序列上保持上下文连贯性。
第二个同样关键的维度是多模态和结构缩放,它将上下文扩展到简单文本之外,以包含多维、动态、跨模态信息结构。这包括时间上下文(理解时间依赖关系和序列)、空间上下文(解释基于位置和几何关系)、参与者状态(跟踪多个实体及其不断变化的条件)、意图上下文(理解目标、动机和隐含目标)以及文化上下文(在特定社会和文化框架内解释通信)。
现代上下文工程必须同时解决这两个维度,因为现实世界的应用要求模型不仅处理冗长的文本信息,还要处理各种数据类型,包括结构化知识图谱、多模态输入(文本、图像、音频、视频)、时间序列以及人类自然理解的隐含上下文线索。这种多维度的上下文缩放方法代表了从参数缩放向开发能够理解复杂、模糊上下文的系统的根本转变,这些上下文反映了人类智能在面对复杂世界时的微妙本质[1036]。
3.2. 为什么需要上下文工程
3.2.1. 当前局限性
大型语言模型面临着关键的技术障碍,需要复杂的上下文工程方法。自注意力机制随着序列长度的增加带来二次计算和内存开销,为处理扩展上下文创造了巨大障碍,并显著影响了聊天机器人和代码理解模型等现实世界应用[1017, 977]。商业部署通过重复的上下文处理引入了额外的延迟和基于标记的定价成本,加剧了这些挑战[1017]。
除了计算约束外,LLMs表现出令人担忧的可靠性问题,包括频繁的幻觉、对输入上下文的不忠实、对输入变化的敏感性问题,以及看似语法正确但缺乏语义深度或连贯性的响应[951, 1279, 523]。
提示工程过程通过基于近似和主观的方法带来了方法学挑战,这些方法狭隘地关注特定任务的优化,而忽视了个体LLM行为[800]。尽管存在这些挑战,通过精确和上下文丰富的提示减少歧义并提高响应一致性,提示工程对于有效利用LLM仍然至关重要[964]。
3.2.2. 性能提升
上下文工程通过检索增强生成和叠加提示等技术提供了显著的性能改进,取得了有记录的改进,包括文本导航准确性的18倍提升、94%的成功率,以及通过精心构建的提示和跨专业领域的自动优化获得的显著收益[267, 768, 681]。
结构化提示技术,特别是思维链方法,通过中间步骤实现复杂推理,同时增强元素感知的摘要能力,整合源文档中的细粒度细节[1138, 750, 1120]。通过精心选择的演示示例实现的少样本学习在代码摘要的BLEU-4分数上实现了9.90%的改进,在错误修复的精确匹配指标上实现了175.96%的改进[306]。
特定领域的上下文工程在专门应用中特别有价值,执行感知调试框架在代码生成基准上实现了高达9.8%的性能改进,硬件设计应用从专门的测试台生成和安全属性验证中受益[1360, 873, 44]。这些有针对性的方法弥合了通用模型训练与专门领域要求之间的差距。
3.2.3. 资源优化
上下文工程通过智能内容过滤和通过精心设计的提示直接传输知识,提供了资源密集型传统方法的高效替代方案[630, 670]。即使相关信息从输入上下文中删除,LLMs也可以生成预期的响应,利用上下文线索和先验知识优化上下文长度使用,同时保持响应质量,这在数据获取挑战显著的领域特别有价值[630, 670]。
专门的优化技术通过显著减少标记消耗的上下文感知和责任调整、采用精确标记级内容选择的动态上下文优化以及用于长上下文推理的注意力引导机制,进一步增强了效率收益[426, 944, 350]。这些方法在减少处理开销和保持性能质量的同时最大化信息密度[944, 350]。
3.2.4. 未来潜力
上下文工程通过上下文学习实现灵活的适应机制,允许模型适应新任务而无需显式再训练,上下文窗口大小直接影响任务适应可用的示例[617]。先进技术集成压缩和选择机制,以高效编辑模型,同时保持上下文连贯性[619]。这种适应性在低资源场景中特别有价值,能够有效利用各种提示工程技术,包括零样本方法、少样本示例和角色上下文,而无需特定领域的微调[924, 129, 1075]。
复杂的上下文工程技术,包括上下文学习、思维链、思维树和规划方法,为精细的语言理解和生成能力奠定了基础,同时优化检索和生成过程,用于稳健的、上下文感知的AI应用[797, 974]。
未来的研究方向表明,通过思维链增强与对数几率对比机制[953]、跨领域更好地利用不同上下文类型(特别是在结合语法、语义、执行流程和文档的代码智能任务中)[1094],以及随着先进语言模型继续展示提示工程的持久价值,理解最佳上下文利用策略,上下文敏感应用有很大的进步潜力[1079]。向复杂过滤和选择机制的演进代表了应对Transformer架构的缩放限制同时保持性能质量的关键途径。
4. 基础组件
上下文工程建立在三个基本组件之上,这些组件共同解决了大型语言模型中信息管理的核心挑战:上下文检索与生成通过提示工程、外部知识检索和动态上下文组装来获取适当的上下文信息;上下文处理通过长序列处理、自我优化机制和结构化数据集成来转换和优化获取的信息;上下文管理通过解决基本约束、实施复杂的内存层次结构和开发压缩技术来高效组织和利用上下文信息。这些基础组件建立了所有上下文工程实现的理论和实践基础,形成了一个全面的框架,其中每个组件解决上下文工程流程的不同方面,同时保持协同关系,实现全面的上下文优化和有效的上下文工程策略。
4.1. 上下文检索与生成
上下文检索与生成构成了上下文工程的基础层,包括通过提示工程、外部知识检索和动态上下文组装系统检索和构建LLMs的相关信息。该组件通过三种主要机制解决获取适当上下文信息的关键挑战:基于提示的生成,构建有效的指令和推理框架;外部知识检索,访问动态信息源;动态上下文组装,将获取的组件编排成连贯的、任务优化的上下文。
4.1.1. 提示工程与上下文生成
提示工程和上下文生成构成了上下文检索的基础层,包括结合艺术和科学的战略输入设计,为LLMs精心设计有效指令。CLEAR框架——简洁性、逻辑性、明确性、适应性和反思性——指导有效的提示构建,而核心架构整合任务指令、上下文信息、输入数据和输出指标[702, 1133, 569, 209, 25]。
零样本和少样本学习范式 零样本提示使模型能够在没有先前示例的情况下执行任务,完全依赖于指令清晰度和预训练知识[1361, 336, 553, 67, 1046]。少样本提示通过纳入有限的示例来扩展这种能力,通过战略性示例选择展示任务执行[1361, 401, 103, 546, 788, 1371]。上下文学习通过在提示中利用演示示例,使模型能够适应新任务而无需参数更新,性能受示例选择和排序策略的显著影响[365, 103, 1287, 1016, 920, 846, 1139, 348, 576]。
思维链基础 思维链(CoT)提示将复杂问题分解为中间推理步骤,模仿人类认知[1138, 401, 336, 939, 603]。零样本CoT使用“让我们一步一步思考”等触发短语,将MultiArith准确率从17.7%提高到78.7%[553, 1099, 472, 662],自动提示工程师改进带来了额外收益[1215, 526]。
思维树(ToT)将推理组织为具有探索、前瞻和回溯能力的层次结构,将24点游戏的成功率从4%提高到74%[1246, 217, 557, 598]。思维图(GoT)将推理建模为任意图,其中思想作为顶点,依赖关系作为边,与ToT相比质量提高62%,成本降低31%[69, 826, 1366]。
认知架构集成 认知提示实施结构化的类人操作,包括目标澄清、分解、过滤、抽象和模式识别,通过确定性、自适应和混合变体实现系统的多步骤任务解决[558, 557, 1205, 1164]。吉尔福德的智力结构模型为分类认知操作(如模式识别、记忆检索和评估)提供了心理学基础,增强推理的清晰度、连贯性和适应性[556, 191]。先进的实现将认知工具作为模块化推理操作,通过结构化认知操作序列,GPT-4.1在AIME2024上的性能从26.7%提高到43.3%[243, 1030]。
方法 | 描述 |
自我优化 [735, 916] | 使LLMs能够通过迭代反馈和优化循环改进输出,使用同一模型作为生成器、反馈提供者和优化器,无需监督训练。 |
多方面反馈 [799] | 集成多个反馈模块(冻结的语言模型和外部工具),每个模块专注于特定的错误类别,以实现更全面、独立的评估。 |
N-CRITICS [789] | 实施一组评估器来评估初始输出。来自生成LLM和其他模型的编译反馈指导优化,直到满足停止标准。 |
ISR-LLM [1373] | 通过将自然语言转换为形式规范、创建初始计划,然后使用验证器系统地优化它来改进基于LLM的规划。 |
SELF [704] | 通过有限的示例教授LLMs元技能(自我反馈、自我优化),然后让模型通过生成和过滤自己的训练数据不断自我进化。 |
ProMiSe [884] | 使用原则引导的迭代优化解决小型LM中的自我优化问题,结合代理指标阈值与少样本优化和拒绝采样。 |
A2R [577] | 通过基于指标的迭代反馈学习增强LLMs,使用跨多个维度(如正确性)的显式评估生成反馈并优化输出。 |
经验优化 [857] | 使LLM智能体能够在任务执行期间通过从最近(连续)或所有先前(累积)经验中学习来优化经验,优先考虑高质量的经验。 |
I-SHEEP [654] | 允许LLMs通过生成、评估、过滤和训练高质量合成数据集,在没有外部指导的情况下从零开始不断自我对齐。 |
CaP [1271] | 使用外部工具优化思维链(CoT)响应,解决陷入非纠正推理循环的模型的局限性。 |
Agent-R [1277] | 通过迭代自我训练使语言智能体能够“即时”反思,使用蒙特卡洛树搜索(MCTS)构建纠正错误路径的训练数据。 |
GenDiE [610] | 通过句子级优化增强上下文忠实性,结合生成和判别训练,赋予LLMs自我生成和自我评分能力。 |
自我发展 [466] | 使LLMs能够通过将改进算法生成为代码、评估它们并使用DPO递归改进,自主发现、实施和优化自己的改进算法。 |
SR-NLE [1121] | 通过使用自我反馈和特征归因的迭代批判和优化过程,改进事后自然语言解释的忠实性。 |
表2:大型语言模型中的自我优化方法及其关键特征。
4.1.2. 外部知识检索
外部知识检索代表了上下文检索的关键组成部分,通过动态访问外部信息源(包括数据库、知识图谱和文档集合)解决参数知识的基本局限性。
检索增强生成基础 RAG将存储在模型参数中的参数知识与从外部源检索的非参数信息相结合,能够访问当前的、特定领域的知识,同时保持参数效率[591, 311, 253]。FlashRAG提供RAG系统的全面评估和模块化实现,而KRAGEN和ComposeRAG等框架展示了在各种基准上具有显著性能改进的先进检索策略[500, 749, 1159]。
Self-RAG引入自适应检索机制,其中模型动态决定何时检索信息并生成特殊标记以控制检索时机和质量评估[41]。先进的实现包括用于分层文档处理的RAPTOR、用于受内存启发的检索架构的HippoRAG,以及利用结构化知识表示改进信息访问的图增强RAG系统[928, 366, 360]。
知识图谱集成和结构化检索 知识图谱集成通过KAPING等框架解决结构化信息检索,该框架基于语义相似性检索相关事实,并将其前置到提示中,无需模型训练[48, 673]。KARPA通过预规划、语义匹配和关系路径推理提供无需训练的知识图谱适应,在知识图谱问答任务上实现最先进的性能[258]。
Think-on-Graph能够对知识图谱进行顺序推理以定位相关三元组,进行探索以从外部数据库检索相关信息,同时生成多个推理路径[1000, 720]。StructGPT实施迭代的先阅读后推理方法,构建专门的函数从结构化数据源收集相关证据[489]。
智能体化和模块化检索系统 智能体化RAG系统将检索视为动态操作,其中智能体作为智能调查员分析内容并交叉引用信息[648, 162, 965]。这些系统集成了复杂的规划和反思机制,需要任务分解、多计划选择和迭代优化能力的集成[438, 1183]。
模块化RAG架构通过标准化接口和即插即用设计支持检索组件的灵活组合。图增强RAG系统利用结构化知识表示改进信息访问,而实时RAG实现解决流应用中的动态信息需求[312, 1391]。
4.1.3. 动态上下文组装
动态上下文组装代表将获取的信息组件精心编排为连贯的、任务优化的上下文,以最大化语言模型性能,同时尊重计算约束。
组装函数和编排机制 组装函数A包括基于模板的格式化、基于优先级的选择和自适应组合策略,这些策略必须适应不同的任务要求、模型能力和资源约束[702, 1133, 569]。当代编排机制管理多智能体系统中的智能体选择、上下文分配和交互流程控制,通过用户输入处理、上下文分配和基于能力评估的最佳智能体选择实现有效协作[894, 53, 171]。
先进的编排框架集成意图识别、上下文内存维护和任务调度组件,用于跨特定领域智能体的智能协调。Swarm Agent框架利用实时输出来指导工具调用,同时解决静态工具注册表和定制通信框架的局限性[808, 263, 246]。
多组件集成策略 上下文组装必须解决跨模态集成挑战,整合多种数据类型,包括文本、结构化知识、时间序列和外部工具接口,同时保持连贯的语义关系[529, 1221, 496]。 verbalization技术将结构化数据(包括知识图谱三元组、表行和数据库记录)转换为自然语言句子,无需架构修改即可与现有语言系统无缝集成[12, 782, 1064, 13]。
结构化数据的编程语言表示,特别是知识图谱的Python实现和数据库的SQL,通过利用固有的结构特性,在复杂推理任务中优于传统的自然语言表示[1166]。多级结构化方法根据语言关系将输入文本重新组织为分层结构,而结构化数据表示利用现有LLMs提取结构化信息并将关键元素表示为图、表或关系模式[681, 1125, 1324]。
自动组装优化 自动提示工程通过系统的提示生成和优化算法解决手动优化限制。自动提示工程师(APE)采用搜索算法进行最佳提示发现,而LM-BFF引入结合基于提示的微调与动态演示整合的自动管道,在NLP任务上实现高达30%的绝对改进[307, 417, 590]。Promptbreeder实施自引用进化系统,其中LLMs通过自然选择类比改进任务提示和管理这些改进的突变提示[275, 508]。
Self-refine通过多轮自我批判和修订实现输出的迭代改进,GPT-4通过这种方法实现约20%的绝对性能提升[735, 670]。多智能体协作框架模拟专业团队动态,智能体承担不同角色(分析师、编码员、测试员),与单智能体方法相比,在Pass@1指标上实现29.9-47.1%的相对改进[434, 1257]。
工具集成框架将思维链推理与外部工具执行相结合,自动生成中间推理步骤作为可执行程序,战略性地整合外部数据。LangChain为顺序处理链、智能体开发和网页浏览能力提供全面的框架支持,而Auto-GPT和微软的AutoGen等专门框架通过用户友好的界面促进复杂AI智能体开发[963, 1087, 25, 867]。
4.2. 上下文处理
上下文处理专注于转换和优化获取的上下文信息,以最大限度地提高其对LLMs的效用。该组件解决处理超长序列上下文的挑战,启用迭代自我优化和适应机制,并促进多模态、关系型和结构化信息集成到连贯的上下文表示中。
4.2.1. 长上下文处理
长上下文的架构创新 状态空间模型(SSMs)通过固定大小的隐藏状态保持线性计算复杂性和恒定内存需求,Mamba等模型提供比传统Transformer更有效的递归计算机制,具有更好的扩展性能[1258, 347, 346]。LongNet等扩张注意力方法随着标记距离的增长采用指数扩展的注意力场,实现线性计算复杂性,同时保持标记之间的对数依赖性,能够处理超过10亿个标记的序列[216]。
位置插值和上下文扩展 位置插值技术通过智能重新缩放位置索引而不是外推到未见过的位置,使模型能够处理超出原始上下文窗口限制的序列[150]。神经正切核(NTK)方法为上下文扩展提供数学基础框架,YaRN结合NTK插值与线性插值和注意力分布校正[833, 471, 1021]。
LongRoPE通过两阶段方法实现2048K标记上下文窗口:首先将模型微调至256K长度,然后进行位置插值以达到最大上下文长度[218]。位置序列调优(PoSE)通过结合多种位置插值策略,展示了令人印象深刻的序列长度扩展,可达128K标记[1377]。Self-Extend技术使LLMs能够在不微调的情况下处理长上下文,通过采用双层注意力策略——分组注意力和邻居注意力——捕获远距离和相邻标记之间的依赖关系[499]。
高效处理的优化技术 分组查询注意力(GQA)将查询头分组为共享键和值头的组,在多查询注意力和多头注意力之间取得平衡,同时减少解码期间的内存需求[16, 1341]。FlashAttention利用非对称GPU内存层次结构实现线性内存缩放而非二次需求,FlashAttention-2通过减少非矩阵乘法操作和优化工作分配提供约两倍的速度[196, 195]。
高效选择性注意力(ESA)通过将查询和键向量压缩到低维表示中,提出标记级关键信息选择,能够处理长达256K标记的序列[1084]。BigBird结合局部注意力与关注整个序列的全局标记,以及随机连接,能够有效处理比以前长8倍的序列[1285]。
内存管理和上下文压缩 内存管理策略包括滚动缓冲区缓存技术,该技术保持固定的注意力跨度,在32K标记序列上减少约8倍的缓存内存使用[1341]。StreamingLLM能够在不微调的情况下处理无限长序列,通过保留关键的“注意力汇”标记以及最近的KV缓存条目,在长达400万个标记的序列上展示出高达22.2倍的加速,超过滑动窗口重新计算[1176]。
QwenLong-CPRS等上下文压缩技术实施动态上下文优化机制,支持通过自然语言指令引导的多粒度压缩[944]。InfLLM将远距离上下文存储在额外的内存单元中,并采用高效机制检索与标记相关的单元进行注意力计算,允许在几千个标记序列上预训练的模型有效处理高达1,024K标记的序列[1175]。
4.2.2. 上下文自我优化与适应
自我优化使LLMs能够通过周期性反馈机制改进输出,这些机制模仿人类修订过程,通过对话式自我交互利用自我评估,这与强化学习方法不同[735, 916, 25, 1211]。
基础自我优化框架 Self-Refine框架使用同一模型作为生成器、反馈提供者和优化器,表明识别和修复错误通常比生成完美的初始解决方案更容易[735, 1313, 227]。Reflexion通过语言反馈在情景记忆缓冲区中维护反思文本,用于未来决策[956],而结构化指导被证明是必不可少的,因为简单的提示通常无法实现可靠的自我纠正[672, 587]。
多方面反馈集成冻结的语言模型和专注于特定错误类别的外部工具,以实现更全面、独立的评估[799]。N-CRITICS框架实施基于集成的评估,其中初始输出由生成LLM和其他模型评估,编译的反馈指导优化,直到满足特定任务的停止标准[789]。
A2R框架在多个维度(包括正确性和引用质量)上采用显式评估,为每个方面制定自然语言反馈,并迭代优化输出[577]。ISR-LLM通过将自然语言转换为形式规范、创建初始计划,然后使用验证器系统地优化它来改进基于LLM的规划[1373]。
元学习和自主进化 SELF通过有限的示例教授LLMs元技能(自我反馈、自我优化),然后让模型通过生成和过滤自己的训练数据不断自我进化[704]。自我奖励机制使模型能够通过迭代自我判断自主改进,其中单个模型承担执行者和评判者的双重角色,最大化其给自己的奖励[1163, 1278]。
Creator框架通过包括创建、决策、执行和识别的四模块过程,进一步扩展了这一范式,使LLMs能够创建和使用自己的工具[946, 856]。自我发展框架代表了最自主的方法,使LLMs能够通过生成作为可执行代码的算法候选的迭代周期发现、实施和优化自己的改进算法[466]。
上下文学习本质上代表了一种元学习形式,其中模型在预训练期间学习跨各种任务泛化的优化策略,在推理期间能够快速适应新挑战[179, 1165]。元上下文学习表明,上下文学习能力本身可以通过上下文学习递归改进,自适应重塑模型对预期任务的先验,并修改上下文学习策略[177]。
内存增强适应框架 内存增强通过Memory of Amortized Contexts等框架代表了实现元学习的强大方法,该框架使用特征提取和内存增强将新文档的信息压缩到存储在内存库中的紧凑调制中[1011]。基于上下文的元学习损失缩放通过元训练小型自回归模型在在线微调期间动态重新加权每个标记的语言建模损失,解决了过时知识挑战[430]。
决策预训练Transformer展示了Transformer如何被训练执行上下文强化学习,通过泛化超出预训练分布解决以前未见过的RL问题[1013, 582]。基于上下文的元强化学习方法通过直接监督上下文编码器提高性能,与端到端训练方法相比提高了样本效率[1072]。
长思维链和高级推理 长思维链作为一种重要的演进,其特点是显著更长的推理轨迹,能够彻底探索问题,在OpenAI-o1、DeepSeek-R1、QwQ和Gemini 2.0 Flash Thinking等先进模型中实现[147, 718, 1214]。长CoT的有效性似乎与上下文窗口容量相关,实证证据表明更大的上下文窗口通常会带来更强的推理性能[1229]。
扩展推理启用自我反思和纠错机制,允许模型在解决问题过程中识别和纠正错误[1334]。增加推理步骤长度的有效性,即使不添加新信息,也通过测试时缩放显著增强了多个数据集的推理能力[1345]。
优化策略通过通过最佳N采样生成更短的自我生成推理路径、包括ZeroThinking和Less-Thinking方法的自适应推理模式,以及减少标记使用同时保持推理质量的显式紧凑CoT方法,解决冗长推理轨迹带来的计算低效问题[791, 1348, 697]。自动长-短推理能够根据问题复杂性动态调整推理路径长度,帮助模型决定何时需要更长的链[715]。
4.2.3. 多模态上下文
多模态大型语言模型(MLLMs)通过将视觉、音频和3D环境等多种数据模态集成到统一的上下文表示中,将上下文工程扩展到文本之外。这种扩展在模态融合、跨模态推理和长上下文处理方面引入了新的挑战,同时启用了利用丰富的多模态上下文理解的复杂应用。
多模态上下文集成基础技术 多模态MLLMs在传统LLMs的基础上扩展,通过整合视觉、音频和3D环境等多种模态的数据[105, 49, 957]。一种主要的集成方法将视觉输入转换为离散标记,与文本标记连接,调节LLM的生成过程,使其基于组合表示[1286]。这通常通过视觉提示生成器(VPGs)实现,这些生成器在图像-标题对上训练,将视觉特征映射到LLM的嵌入空间[607]。主导的架构范式将专门的外部多模态编码器(如用于视觉的CLIP或用于音频的CLAP)连接到LLM主干,通过Q-Former或简单的MLP等对齐模块[19, 86, 609, 1130],这种模块化设计允许独立更新编码器而无需重新训练整个模型[618]。
高级集成策略 更复杂的方法实现更深层次的模态融合。跨模态注意力机制直接在LLM的嵌入空间内学习文本和视觉标记之间的细粒度依赖关系,增强图像编辑等任务的语义理解[564, 901, 102]。为了处理冗长输入,分层设计分阶段处理模态,确保可扩展性[155],而“浏览和集中”范式在LLM摄入之前融合多个图像的上下文,克服孤立处理的局限性[1134]。一些研究绕过文本仅LLMs的适应,选择从一开始就在多模态数据和文本语料库上联合预训练模型的统一训练范式,以减轻对齐挑战[1381, 1224]。其他方法利用文本作为通用语义空间,使用LLM上下文学习提高跨不同模态组合的泛化能力[1050]。对于视频,上下文集成技术从提示调优到基于适配器的方法不等,这些方法将视频内容转换为推理序列[1080]。这些模型的开发通常受到对大量高质量多模态数据和大量计算资源的需求的限制[1295, 609, 211]。
多模态上下文处理的核心挑战模态偏差和推理缺陷 MLLM开发中的一个主要障碍是模态偏差,模型偏爱文本输入,通过依赖学到的语言模式而非集成的视觉或听觉信息生成看似合理但多模态不接地的响应[1358, 24, 315, 1325]。这种问题因训练方法而加剧;例如,在简单图像-标题任务上训练的VPGs仅学习提取标题的显著特征,忽略更复杂、基于指令的任务至关重要的其他视觉细节,从根本上限制了深层多模态理解[607, 504]。因此,MLLMs经常在细粒度空间或时间推理方面遇到困难,例如精确的对象定位或理解视频中的详细事件序列[1031, 957],特别是在社交媒体等复杂领域,解释文本和图像的相互作用以理解错误信息或讽刺是困难的[505]。有效的多模态推理不仅需要理解每种模态,还需要推断它们组合的整体含义[385]。加剧这些问题的是我们对MLLMs内部工作机制的有限机械理解;它们的内部运作在很大程度上是一个黑箱,阻碍了更好架构的开发[1274]。
高级上下文能力和未来方向上下文学习和长上下文学习 MLLMs的一个关键能力是上下文学习,模型无需权重更新,即可从提示中的多模态示例适应新任务[1397, 1398, 551]。链接上下文学习(LCL)通过提供具有显式因果链接的演示来增强这一点,提高泛化能力[1012]。然而,上下文学习受到固定上下文窗口的限制,因为图像标记消耗大量空间,限制了少样本学习[437]。性能还对输入顺序敏感,并且每种模态的相对重要性因任务而异[1020, 1197]。处理长多模态上下文(对视频分析等应用至关重要)仍然是一个主要研究前沿[1086]。创新包括用于视频的自适应分层标记压缩[1119]、可变视觉位置编码(V2PE)[1381]、用于会话记忆的专用模块(如ContextQFormer)[589],以及用于视频的动态、查询感知帧选择[581]。MLLMs在扩展交互中也显示出新兴的通信效率,这一现象仍在研究中[436]。
新兴应用 处理丰富的多模态上下文的能力正在解锁新的应用。MLLMs用于预测推理,例如从视觉场景预测人类活动[1382],并在各种多模态基准上展示了令人印象深刻的感知和认知能力[290]。在VQA中,上下文被用于更精确的答案,例如通过提示MLLM生成自己的图像描述文本上下文[1346]或通过RAG集成外部知识[993, 105]。其他应用包括基于感官输入规划数字行动[605]、通过内存增强的上下文理解增强手术决策支持[418],以及通过整合视觉信息与语音和音频线索实现细致的视频理解[642, 1193, 7]。研究人员还将MLLMs扩展到新兴模态,如触觉信息、事件数据和图结构[1358, 1023, 1213]。这些现实世界用例的重要性日益增加,催生了综合评估框架来评估上下文理解[1109]。这些进步使以前文本仅模型不可能的应用成为可能,例如图像标题生成和复杂的多模态推理[1173, 677, 139]。
4.2.4. 关系型和结构化上下文
大型语言模型在处理表格、数据库和知识图谱等关系型和结构化数据方面面临基本限制,这是由于基于文本的输入要求和顺序架构限制[489, 47, 1136]。线性化通常无法保留复杂关系和结构特性,当信息分散在上下文中时,性能会下降[586, 585, 938]。
知识图谱嵌入和神经集成 先进的编码策略通过知识图谱嵌入解决结构限制,将实体和关系转换为数值向量,使语言模型架构能够高效处理[12, 1250, 930, 1194]。图神经网络捕获实体之间的复杂关系,通过GraphFormers等专门架构促进跨知识图谱结构的多跳推理,这些架构将GNN组件与Transformer块嵌套在一起[974, 404, 1221, 483]。
GraphToken通过显式表示结构信息展示了显著改进,通过参数高效的编码函数在图推理任务上实现高达73个百分点的增强[836]。
Heterformer和其他混合GNN-LM架构在统一模型中执行上下文文本编码和异构结构编码,解决了扩展这些集成系统的计算挑战[496, 465, 751]。
方法 | 途径 | 性能 | 关键创新 |
ODA [1001] | 观察驱动的智能体框架 | 12.87%和8.9%的改进 | 具有行动-反思的递归观察 |
RAG-KG [1206] | 历史问题KG构建 | 77.6%的MRR,0.32的BLEU改进 | 查询解析和子图检索 |
KARPA [258] | 无需训练的KG适应 | 知识图谱问答任务的最先进性能 | 预规划关系路径 |
忠实推理 [720] | 规划-检索-推理框架 | N/A | 具有关系路径的LLM-KG协同作用 |
表3:用于增强大型语言模型推理的知识图谱集成方法。
verbalization和结构化数据表示 verbalization技术将结构化数据(包括知识图谱三元组、表行和数据库记录)转换为自然语言句子,无需架构修改即可与现有语言系统无缝集成[12, 782, 1064, 13]。多级结构化方法根据语言关系将输入文本重新组织为分层结构,而结构化数据表示利用现有LLMs提取结构化信息并将关键元素表示为图、表或关系模式[681, 1125, 1324, 1035, 602]。
结构化数据的编程语言表示,特别是知识图谱的Python实现和数据库的SQL,通过利用固有的结构特性,在复杂推理任务中优于传统的自然语言表示[1166]。使用结构化矩阵表示的资源高效方法为减少参数数量同时保持结构化数据任务的性能提供了有前景的方向[343]。
集成框架和协同方法 知识图谱与语言模型的集成遵循不同的范式,其特点是不同的实现策略和性能权衡[817, 1140]。K-BERT等预训练集成方法在训练期间注入知识图谱三元组以内化事实知识,而推理时方法无需完全模型再训练即可实现实时知识访问[690, 1237, 712]。
KG增强的LLMs通过KAPING等基于检索的增强方法整合结构化知识以提高事实基础,KAPING基于语义相似性检索相关事实,并将其前置到提示中,无需模型训练[48, 673, 591]。更复杂的实现通过适配器模块和跨注意力机制将KG派生表示直接嵌入模型潜在空间,Text2Graph映射器提供输入文本和KG嵌入空间之间的链接[132, 1066, 428]。
协同方法创建统一系统,两种技术发挥同等重要的作用,通过数据和知识驱动的双向推理解决基本限制[817, 853, 1111]。GreaseLM促进所有模型层的深度交互,允许语言上下文表示以结构化世界知识为基础,同时语言细微差别为图表示提供信息[1321]。QA-GNN通过联合图形成和通过基于图的消息传递进行相互表示更新,实现问答上下文和知识图谱之间的双向注意力机制[1250, 974]。
应用和性能增强 结构化数据集成在多个维度上显著增强LLM能力,知识图谱提供结构化信息,通过将响应基于可验证的事实减少幻觉,并通过明确定义的信息源提高事实准确性[1002, 1342, 200, 565]。知识图谱通过提供支持复杂多跳推理和逻辑推断的结构化实体关系增强推理能力,其丰富的层次知识库显著提高推断的精度和可靠性[1166, 208, 1018]。
现实世界应用在多个专业领域展示了显著改进。医疗系统通过检索增强生成框架结合结构化医疗知识和上下文理解,以改进疾病进展建模和临床决策[842, 583]。科学研究平台将发现组织为支持假设生成和研究差距识别的结构化知识,而商业分析系统平衡基于规则的精度与AI模式识别,以获得更可行的见解[1326, 1062]。
问答系统受益于结构化数据源上的自然语言接口,集成创建更强大的系统,能够处理多模态查询并提供克服静态知识库限制的个性化响应[1317, 1116, 914, 1206]。研究表明,与非结构化内存方法相比,结构化知识表示可以在公共数据集上将摘要性能分别提高40%和14%,而关键链策略通过动态结构化内存更新提供额外的性能增益[459]。
方法 | 数据类型 | 集成方法 | 关键创新 | 任务范围 |
K-LAMP [48] | 知识图谱 | 基于检索的增强 | KAPING框架 | 零样本问答 |
Pan等人[817] | 知识图谱 | 预训练和推理集成 | 协同LLMs + KGs | 多领域推理 |
StructLM [1392] | 表格、图、数据库 | 指令调优 | 110万示例数据集 | 18个数据集,8个SKG任务 |
Shao等人[938] | 表格、数据库、KGs | 线性化方法 | 模式链接和语法预测 | 文本到SQL任务 |
表4:大型语言模型中结构化数据集成的代表性方法。
4.3. 上下文管理
上下文管理解决LLMs中上下文信息的高效组织、存储和利用。该组件解决有限上下文窗口带来的基本约束,开发复杂的内存层次结构和存储架构,并实施压缩技术以最大化信息密度,同时保持可访问性和连贯性。
4.3.1. 基本约束
LLMs在上下文管理方面面临源于大多数架构中有限上下文窗口大小的基本约束,这显著降低了模型在需要深入理解冗长文档的任务上的功效,同时带来大量计算需求,阻碍需要快速响应和高吞吐量的应用[1074]。尽管扩展上下文窗口使模型能够处理整个文档并捕获更长范围的依赖关系,但传统Transformer架构随着序列长度增加而经历二次计算复杂性增长,使得处理极长文本成本过高[999]。虽然LongNet等创新方法已将这种复杂性降低到线性,但平衡窗口大小和泛化能力仍然具有挑战性[999, 216]。
实证证据揭示了“中间迷失”现象,即LLMs在访问长上下文中间部分的信息时遇到困难,当相关信息出现在输入的开头或结尾时表现明显更好[128, 685, 648]。这种位置偏差在扩展思维链推理任务中严重影响性能,其中关键的早期结果容易被遗忘,与没有先前上下文的性能相比,性能可能急剧下降高达73%[128, 1138, 377]。
LLMs本质上独立处理每个交互,缺乏跨顺序交换维护状态的原生机制和强大的自我验证机制,这些约束源于哥德尔不完备定理中确定的基本限制[128, 368]。这种基本的无状态性需要显式管理系统来维持连贯的操作序列并确保强大的故障恢复机制[128]。上下文管理面临上下文窗口溢出(模型因超出窗口限制而“忘记”先前上下文)和上下文崩溃(扩大的上下文窗口或会话内存导致模型无法区分不同的会话上下文)的对立挑战[985]。研究表明,思维链提示的声称好处并非源于真正的算法学习,而是取决于特定问题的提示,随着问题复杂性增加,好处会恶化[984]。长上下文处理的计算开销在键值缓存的管理中造成额外挑战,键值缓存随着输入长度大幅增长,在延迟和准确性方面造成瓶颈,而多轮和纵向交互挑战使上下文管理进一步复杂化,因为有限的有效上下文阻碍纵向知识积累,而多轮提示的标记需求限制系统和用户输入的可用空间,同时减慢推理速度[911, 719, 389]。
4.3.2. 内存层次结构和存储架构
现代LLM内存架构采用复杂的分层设计,组织成克服固定上下文窗口限制的方法学方法。受操作系统启发的分层内存系统实施虚拟内存管理概念,MemGPT是这种方法的例证,通过在有限上下文窗口(主内存)和外部存储之间分页信息,类似于传统操作系统[813]。这些架构包括包含系统指令、FIFO消息队列和可写暂存器的主上下文,以及通过显式函数调用可访问的外部上下文,通过函数调用能力进行内存管理,实现自主分页决策[831]。受操作系统中的虚拟内存和分页技术启发的PagedAttention管理LLMs中的键值缓存内存[57, 1341]。
认知启发的内存架构从人类记忆系统中汲取灵感,实现了工作记忆、短期记忆和长期记忆的层次结构[1182, 1362, 128]。工作记忆处理当前上下文窗口内的信息,短期记忆存储最近的交互,长期记忆保存重要的历史信息和持久知识,通过检索机制按需访问[1182, 1362, 128]。MemBank和其他专用系统通过将相关事实存储在外部数据库中并根据需要检索它们,为检索增强生成提供内存管理功能,在需要访问大量知识的任务上展示出显著改进[1074, 935, 1182]。
系统 | 内存架构 | 关键机制 | 优势 | 限制 |
MemGPT [813] | 分层虚拟内存 | 分页、函数调用管理 | 处理超长对话 | 实现复杂性 |
Retrieval Transformer [1182] | 工作/长期记忆分离 | 神经内存检索 | 精确信息检索 | 静态知识限制 |
LongMem [1362] | 多尺度内存 | 记忆流和时间衰减 | 处理长期依赖 | 计算开销 |
LLMLingua [813] | 上下文压缩 | 标记级压缩 | 提高信息密度 | 可能丢失细节 |
表5:内存架构及其关键特性的比较。
动态存储管理策略解决了上下文窗口的固定大小限制,通过允许模型自主决定存储什么、何时存储以及如何组织信息,实现自适应内存分配[1182, 1362]。自提示内存管理通过生成特殊指令提示模型执行内存操作,如存储、检索和编辑,实现无需外部控制器的自主内存管理[1182]。基于内容的存储组织使用语义相似性而不是简单的时间顺序,使相关信息即使在长时间间隔后也能被有效检索[1182, 1362]。
选择性存储机制优先考虑关键信息,避免内存被冗余或低价值内容充斥,这些机制基于信息重要性评分,考虑频率、稀有性、与当前任务的相关性以及未来使用的预测价值[1182, 1362]。时间衰减函数模拟人类记忆的自然遗忘过程,降低旧信息的优先级,同时保留重要的长期知识,实现高效的内存资源分配[1362]。
4.3.3. 上下文压缩
上下文压缩技术通过在保持关键信息的同时减少标记消耗,解决了有限上下文窗口的挑战。这些方法在信息保留和压缩率之间取得平衡,同时维持模型性能和输出质量[813, 1176, 944, 1333]。
标记级压缩方法 标记级压缩直接减少输入文本中的标记数量,同时保留语义内容。LLMLingua通过基于信息重要性的标记级内容选择实现高达20倍的压缩,在各种任务上保持性能,同时减少50-90%的标记[813]。SparseGPT通过识别和修剪冗余权重,在不显著损失性能的情况下实现模型压缩,为上下文压缩提供互补方法[744]。
上下文感知压缩通过利用文档结构和上下文重要性,实现更智能的压缩决策,动态调整不同段落的压缩率,确保重要信息保持完整,而冗余内容被有效压缩[944, 1333]。量化方法将高分辨率权重和激活转换为低精度表示,在推理过程中减少内存需求,GPTQ等技术通过最小化量化误差实现近乎无损的性能[745, 1239, 1340]。
摘要和蒸馏技术 基于摘要的压缩生成原始文本的简洁表示,保留关键信息和主要思想,同时显著减少长度。这些方法可以是无监督的(使用预训练模型生成摘要)或有监督的(使用特定任务的摘要数据集),在长文档处理任务上展示出强大的性能[737, 1329]。
知识蒸馏将大型模型的知识转移到更小的模型中,创建专门用于压缩上下文的轻量级模型,学生模型学习模仿教师模型的压缩决策,实现高效的上下文压缩,同时保持性能[287, 743]。迭代压缩方法通过多轮压缩和优化逐步精炼上下文,每轮都基于前一轮的输出进行改进,实现更高的压缩率和更好的信息保留[737, 1329]。
方法 | 技术 | 压缩率 | 性能保持 | 应用场景 |
LLMLingua [813] | 标记级选择 | 高达20倍 | 良好 | 通用上下文 |
FlashCompress [1333] | 自适应压缩 | 动态 | 优异 | 检索增强生成 |
QwenLong-CPRS [944] | 分块压缩 | 4-10倍 | 高 | 长文档处理 |
BitDistiller [743] | 知识蒸馏 | 模型大小减少4倍 | 接近原始性能 | 专用任务 |
表6:上下文压缩方法的比较分析。
结构化压缩策略 结构化压缩利用文档的固有结构(如段落、章节和层次关系)实现更智能的信息选择和组织。层次压缩首先压缩低级别组件(句子、段落),然后整合这些压缩表示形成更高层次的摘要,保留文档的整体结构和逻辑流[944, 1333]。
分块压缩将长文档分成较小的、可管理的块,独立压缩每个块,然后根据需要重新组合,使模型能够处理超出其原始上下文窗口的文档,同时维持块内的连贯性[944, 1333]。选择性注意力压缩通过识别和优先考虑与当前任务最相关的信息块,实现上下文的自适应压缩,动态调整不同部分的压缩率,确保关键信息保持完整[1333, 944]。
4.3.4. 应用
上下文管理技术在多个领域实现了显著的实际应用,使LLMs能够克服其固有的上下文限制,在需要处理长文档、维持持久交互和管理复杂信息的任务上表现出色。
长文档处理 法律文档分析系统利用上下文管理技术处理冗长的法律文本,包括合同、法规和案例法,通过分层内存架构和选择性压缩,使模型能够在保持上下文连贯性的同时分析整个文档[1333, 944]。这些系统实现了关键条款提取、风险评估和合规性检查的自动化,显著提高了法律专业人员的工作效率。
学术研究助手利用上下文管理处理研究论文、文献综述和实验数据,通过动态上下文组装和结构化压缩,使模型能够综合来自多个来源的信息,识别研究差距,并生成全面的文献综述[737, 1329]。这些应用特别受益于分块压缩和层次记忆结构,使模型能够处理整个研究论文集,同时维持对特定细节的访问。
持久交互系统 对话代理通过上下文管理技术维持长时间的连贯对话,克服了固定上下文窗口的限制。虚拟内存架构(如MemGPT)使聊天机器人能够记住长期对话历史,通过分页机制在当前上下文和外部存储之间交换信息,同时保持自然、连贯的交互[813, 1341]。这些系统在心理健康支持、教育辅导和客户服务等应用中特别有价值,其中长期记忆和上下文理解至关重要。
协作文档编辑工具利用上下文管理实现多用户协作,通过内存层次结构跟踪文档修改历史、用户意图和评论线程,使模型能够提供相关建议、识别冲突并促进无缝协作[1362, 1182]。这些应用受益于选择性存储机制和时间衰减函数,优先考虑最近和重要的编辑,同时保留必要的历史背景。
复杂信息管理 知识管理系统通过上下文管理技术整合和组织大型信息集合,实现高效的知识检索和合成。这些系统利用结构化压缩和层次记忆架构,将非结构化文档转换为组织良好的知识表示,支持复杂查询和多跳推理[489, 47]。企业知识管理应用特别受益于这些技术,使员工能够快速访问相关信息,同时减轻信息过载。
智能工作流自动化利用上下文管理协调多个任务和工具,通过内存系统跟踪任务状态、依赖关系和用户偏好,实现自适应工作流调整和错误恢复[128, 368]。这些系统在项目管理、软件开发和内容创作等领域展示出显著价值,通过维持跨多个步骤和工具的上下文连贯性,提高整体效率和准确性。
上下文管理技术的应用不断扩展,推动LLMs超越其原始限制,实现更复杂、更实用的AI系统,这些系统能够在现实世界场景中有效处理信息的复杂性和规模。
5. 系统实现
上下文工程的基础组件为构建复杂的、面向应用的系统实现提供了构建块。这些实现将基础技术集成到统一架构中,使大型语言模型能够与外部环境交互、利用持久内存、调用工具并在多智能体配置中协作。本节探讨四种主要的系统实现类别:检索增强生成(RAG)、内存系统、工具集成推理和多智能体系统,每种实现都代表了基础组件的独特组合,旨在解决特定的实际挑战。
5.1. 检索增强生成
检索增强生成(RAG)已成为克服大型语言模型参数知识局限性的主导范式,通过在生成过程中动态集成外部知识源。现代RAG系统已经超越了简单的检索-然后-生成管道,演变为复杂的、模块化的架构,融合了上下文检索与生成、处理和管理的所有基础组件。
5.1.1. 模块化RAG架构
基础RAG组件 现代RAG系统建立在四个核心模块的基础上:文档加载器,能够摄入各种格式(文本、PDF、HTML、图像)和来源(网站、数据库、云存储)的内容;分块器,将文档分解为适合检索的片段,采用固定大小、语义感知或层次化分块策略;嵌入模型,将文本转换为向量表示,捕获语义内容;以及向量数据库,高效存储和检索这些嵌入[591, 311, 253]。
检索器模块实现多种策略,包括密集检索(使用向量相似性)、稀疏检索(如BM25)和混合方法(如ColBERT、RRF),而生成器模块利用LLM基于检索到的上下文生成响应[591, 311]。高级系统添加查询重写模块以改进检索准确性,以及重新排序器以提升检索结果质量,在各种基准上实现显著的性能提升[749, 1159, 500]。
组件 | 功能 | 关键技术 | 挑战 |
文档加载器 | 摄入多格式内容 | 格式解析器、OCR、网页爬虫 | 非结构化数据处理 |
分块器 | 优化文档片段 | 语义分块、层次分块、重叠分块 | 最佳块大小确定 |
嵌入模型 | 生成向量表示 | Sentence-BERT、E5、Cohere Command | 领域适应性、多语言支持 |
向量数据库 | 存储和检索嵌入 | FAISS、Pinecone、Weaviate、Milvus | 可扩展性、动态更新 |
检索器 | 获取相关上下文 | 密集检索、稀疏检索、混合检索 | 分布偏移、领域差距 |
生成器 | 生成响应 | 提示工程、思维链、上下文感知解码 | 幻觉、不忠实性 |
表7:模块化RAG架构的核心组件。
高级检索策略 高级RAG系统采用多阶段检索策略,结合不同方法的优势。两阶段检索首先使用快速方法(如BM25)缩小候选集,然后应用更精确的密集检索,在保持性能的同时减少计算开销[749, 1159]。迭代检索通过基于初步结果精炼查询,实现渐进式更相关信息的获取,特别适合复杂查询和探索性任务[648, 162]。
知识感知检索利用知识图谱和结构化数据增强检索过程,通过实体链接和关系提取识别查询中的关键概念,并利用这些结构指导检索[1206, 258]。跨模态检索扩展RAG处理图像、音频和视频内容,通过多模态嵌入模型实现跨数据类型的语义对齐[105, 49]。
检索增强生成优化 生成阶段的优化解决了检索到的上下文与生成响应之间的对齐挑战。提示重构将检索到的文档片段组织成结构化提示,强调相关性和连贯性,同时避免信息过载[702, 1133]。自一致性生成通过采样多个响应并选择最一致的输出,减少对特定检索结果的过度依赖[1114, 576]。
检索-生成对齐技术确保生成的内容忠实于检索到的信息,包括引用机制、事实一致性检查和检索到的上下文与生成文本之间的显式映射[720, 1342]。自适应生成根据检索到的信息质量动态调整生成策略,当检索结果有限或不可靠时依赖内部知识,当高质量外部信息可用时优先考虑[41, 799]。
5.1.2. 智能体化RAG系统
RAG与智能体架构的融合产生了智能体化RAG系统,这些系统结合了检索能力与规划、推理和自主决策能力。这些系统超越了静态检索-生成管道,能够执行复杂的信息-seeking任务,适应不断变化的查询需求,并从经验中学习改进性能。
检索规划智能体 检索规划智能体采用目标导向的方法,将复杂查询分解为一系列子查询或检索步骤,制定检索计划,并根据中间结果调整策略[438, 1183]。这些系统通常实现循环反馈机制,其中智能体评估检索到的信息是否足以回答查询,如果不足则生成新的检索策略[648, 162]。
AutoRAG框架等实现展示了如何通过强化学习优化检索策略,智能体学习根据查询特征、文档集合特性和过去的成功经验选择最佳检索方法[1159]。检索规划智能体在需要多跳推理、领域专业知识整合或探索性信息检索的任务上特别有效,如学术研究、市场分析和复杂问答[438, 1183]。
反思型检索增强智能体 反思型检索增强智能体整合自我评估和改进机制,能够批判自己的检索和生成过程,并相应地调整行为。这些系统实现“检索-生成-反思-修正”循环,其中智能体首先生成初始响应,然后评估其准确性、完整性和相关性,识别差距,并进行额外的检索或修改以改进结果[735, 956]。
Self-RAG引入了一种自适应检索机制,其中模型动态决定何时检索信息,生成特殊标记以触发检索,并评估检索到的信息的有用性[41]。反思组件可以专注于特定方面,如事实准确性、来源可靠性或推理连贯性,使用专门的评估标准和改进策略[799, 577]。在法律研究和医疗信息学等领域,反思型检索增强智能体通过减少错误信息传播和提高响应可靠性提供显著价值[842, 583]。
记忆增强检索智能体 记忆增强检索智能体将RAG与持久内存系统结合,能够随着时间的推移积累知识、记住过去的检索策略和结果,并利用这种记忆改进未来的性能。这些系统实现了记忆层次结构,包括工作记忆(当前检索会话)、短期记忆(最近的交互)和长期记忆(长期有效的知识和策略)[1182, 1362]。
LongMem等架构展示了如何将时间衰减机制整合到检索过程中,优先考虑最近的和频繁访问的信息,同时保留重要的长期知识[1362]。记忆增强检索智能体在需要持续学习、个性化信息服务或长期项目支持的应用中特别有价值,如研究助理、个人知识管理和客户关系管理[813, 1341]。
5.1.3. 图增强RAG
图增强RAG系统将知识图谱和图结构集成到检索增强生成过程中,解决传统RAG在捕捉实体关系、上下文依赖性和复杂推理路径方面的局限性。这些系统利用图的表达能力来表示和检索不仅基于语义相似性,还基于实体连接性和关系模式的信息。
知识图谱增强检索 知识图谱增强检索系统利用实体链接和关系提取技术,将查询和文档与知识图谱中的实体和关系关联起来[817, 483]。这些系统能够执行基于图的检索操作,如实体邻居检索、关系路径查找和子图提取,补充传统的基于相似性的检索[258, 1206]。
KARPA等实现展示了如何利用知识图谱的结构来指导检索过程,通过预规划关系路径和检索相关的实体子图来增强问答性能[258]。图-文本融合技术将知识图谱信息与文本内容整合到统一的检索空间中,使模型能够同时利用语义相似性和结构关系[1321, 1250]。知识图谱增强检索在需要精确事实推理、多实体关系理解或复杂网络分析的任务上特别有效,如金融风险评估、供应链分析和科学发现[1326, 1062]。
图神经网络集成 更紧密的图神经网络(GNN)与RAG的集成产生了能够在检索和生成过程中进行端到端图推理的系统。这些架构将文档内容和知识图谱表示为图结构,使用GNN层处理这些结构以捕获实体关系和上下文依赖性,然后将这些图表示集成到生成过程中[974, 404]。
GraphFormers等混合架构将GNN组件与Transformer块嵌套,使模型能够在处理文本的同时进行图推理[974]。这些系统能够执行复杂的图增强生成任务,如生成实体关系描述、完成知识图谱或基于结构化知识生成解释性文本[1221, 483]。GNN集成的RAG系统在需要深度结构理解的应用中展示出优势,如药物发现(理解分子相互作用)、社交网络分析和知识图谱构建[1326, 1062]。
5.1.4. 应用
RAG系统的应用已扩展到多个领域,每个领域都利用检索增强生成的独特优势解决特定挑战。
企业知识管理 企业知识管理系统利用RAG整合分散的文档、数据库和内部资源,为员工提供准确、最新的信息访问。这些系统能够处理各种企业内容,包括产品文档、内部流程、客户记录和研究报告,通过智能检索确保员工获得与特定任务相关的信息[591, 311]。
现代企业RAG实现,如IBM watsonx Discovery和Microsoft SharePoint AI,结合了模块化架构与安全访问控制,确保敏感信息的适当保护,同时提供强大的检索和生成能力[591]。这些系统在提高员工生产力、促进知识共享和减少信息查找时间方面产生显著影响,特别在大型组织中,信息分散在多个系统和部门中[311, 591]。
教育技术 教育技术应用利用RAG为学生和教师提供个性化学习资源和教学支持。这些系统能够检索相关的教育内容,如教科书章节、练习问题、解释性视频和教学策略,并根据特定的学习目标、学生水平和教学风格生成定制材料[105, 49]。
智能辅导系统采用智能体化RAG架构,能够理解学生的问题,识别知识差距,并检索和生成有针对性的解释和练习[105]。图增强RAG在教育中用于概念图构建和知识连接可视化,帮助学生理解复杂主题之间的关系[817, 483]。这些应用在提高学习成果、个性化教育体验和减轻教师工作量方面显示出巨大潜力[105, 49]。
医疗信息学 医疗信息学中的RAG应用解决了获取最新医疗知识、整合患者数据和支持临床决策的关键挑战。这些系统能够检索相关的医学文献、临床指南、药物信息和病例研究,帮助医疗专业人员获取证据-based信息以支持诊断和治疗决策[842, 583]。
智能体化RAG系统在医疗领域特别有价值,能够处理复杂的患者查询,整合来自多个来源的信息,并生成易于理解的解释[842]。隐私保护是医疗RAG的关键考虑因素,实现通常包括专门的安全措施,如本地部署、数据加密和访问控制,以符合HIPAA等法规要求[583]。这些应用有潜力通过提高医疗决策的准确性、减少医疗错误和促进循证实践来改善患者结果[842, 583]。
5.2. 内存系统
内存系统为大型语言模型提供了超越其固定上下文窗口限制的能力,使它们能够维持持久状态、积累知识、记住过去的交互,并在长时间内保持连贯性。这些系统受到人类记忆模型的启发,实现了复杂的内存架构,支持动态信息存储、检索和操作,为上下文工程提供了基础组件与系统实现之间的关键连接。
5.2.1. 内存架构
内存架构定义了信息如何在LLM系统中组织、存储和访问,解决了有效管理不同类型信息(从瞬时交互到长期知识)的挑战。现代内存架构采用分层设计,结合了多种内存类型和访问机制,以平衡性能、容量和效率。
层次化内存系统 层次化内存系统实现了类似人类记忆的结构,包括工作内存、短期内存和长期内存组件,每个组件针对不同的时间范围、容量和访问模式进行优化[1182, 1362, 813]。
•工作内存:对应于模型的当前上下文窗口,存储即时交互所需的信息,如当前查询、检索到的文档片段和中间推理步骤。工作内存具有低延迟和高访问速度,但容量有限,通常受模型上下文窗口大小的限制[1182, 1362]。
•短期内存:存储最近的交互历史,包括过去的查询、响应和相关上下文。短期内存通常采用FIFO(先进先出)或LRU(最近最少使用)淘汰策略管理容量,保留最相关或最近的信息。它使模型能够在多轮对话中维持连贯性,并参考最近的讨论点[813, 1341]。
•长期内存:存储长期相关的信息,如用户偏好、领域知识、频繁使用的事实和成功的问题解决策略。长期内存具有最大的容量,采用更持久的存储机制,并通常实现基于内容的检索,使模型能够在长时间后回忆相关信息。长期内存可能包括明确的知识结构,如知识图谱或数据库,以及隐式模式和关联[1362, 1182]。
MemGPT等系统展示了如何实现这种层次结构,通过虚拟内存管理技术在不同内存层之间自动分页信息,类似于操作系统管理计算机内存的方式[813]。这种架构使模型能够处理远超其原始上下文窗口的信息,同时保持对关键细节的访问。
内容可寻址内存 内容可寻址内存系统允许基于信息内容而非位置或时间检索内存,使模型能够根据语义相似性、概念关联或模式匹配高效查找相关信息[1182, 366]。这些系统通常结合向量嵌入和近似最近邻(ANN)搜索,将内存项转换为高维向量,并检索与查询向量最相似的项[366, 928]。
Retrieval Transformer等实现展示了如何将Transformer架构与内容可寻址内存集成,使模型能够在生成过程中动态检索相关记忆[1182]。内容可寻址内存特别适合需要关联记忆的任务,如回答基于事实的问题、识别模式和利用过去的经验解决新问题[1182, 366]。
情境化内存 情境化内存系统存储不仅是信息本身,还有其获取的上下文,包括时间、来源、相关性和使用历史。这些元数据使模型能够更智能地管理内存,优先考虑最近的、可靠的或频繁使用的信息,并理解信息的适用范围和局限性[1362, 956]。
LongMem实现了时间衰减机制,根据信息的年龄调整内存权重,使模型能够优先考虑最近的信息,同时保留重要的长期知识[1362]。情境化内存还可以包括使用上下文,记录信息过去如何被使用,以及在哪些情况下有用,帮助模型预测未来的相关性[956, 735]。这种架构在个性化推荐、长期项目支持和适应性学习系统中特别有价值,其中信息的相关性高度依赖于上下文[813, 1341]。
5.2.2. 内存增强智能体
内存增强智能体将先进的内存系统与自主决策和行动能力结合,创建能够在复杂环境中长时间运作、从经验中学习并适应不断变化的情况的系统。这些智能体利用内存不仅存储信息,还指导行为、支持规划,并促进自我反思和改进。
认知智能体架构 认知智能体架构受到人类认知模型的启发,整合内存系统与感知、推理、规划和行动组件,创建更全面的智能体系统。这些架构通常基于认知科学框架,如全局工作空间理论或ACT-R,实现信息处理和记忆的分离但相互作用的系统[558, 1205]。
CLIP-Adapter等系统结合了感知模块(处理输入)、工作内存(维持当前状态)、长期记忆(存储知识)、推理引擎(处理信息)和行动选择器(决定下一步)[558]。内存组件在这些架构中发挥核心作用,为推理提供上下文,为规划提供历史背景,并为学习提供经验数据。
认知智能体能够执行复杂的、多步骤的任务,如研究项目管理、持续学习或复杂问题解决,通过利用内存追踪进度、记住中间结果并从过去的成功和失败中学习。例如,一个研究智能体可能使用长期记忆存储领域知识,工作内存处理当前论文,短期记忆跟踪最近的发现,并利用所有这些记忆规划下一步文献检索或实验设计[558, 1205]。
经验学习智能体 经验学习智能体利用内存系统从经验中学习,改进性能并适应新情况,而无需显式重新训练。这些智能体实现某种形式的强化学习或基于案例的推理,存储成功和失败的经验,并利用这些经验指导未来的决策[956, 857]。
Reflexion等系统展示了如何将记忆与自我反思结合,智能体存储其问题解决轨迹,识别错误或低效之处,并修改未来策略以避免类似问题[956]。经验学习智能体的内存系统通常包含:
•经验库:存储过去的交互、行动和结果,通常包括情境描述、采取的行动、观察到的结果和成功度量。
•检索机制:基于当前情境与过去经验的相似性检索相关经验。
•适应策略:修改检索到的经验以适应新情境,可能包括概括、专门化或组合多个经验。
•学习更新:根据新经验更新内存,可能包括强化成功策略、弱化失败方法或提取一般原则[857, 1277]。
这些智能体在动态环境中特别有效,如游戏、机器人控制或个性化服务,其中情况不断变化,而从经验中快速学习的能力至关重要[857, 1277]。
个性化记忆智能体 个性化记忆智能体利用内存系统创建和维护用户或领域的详细模型,使它们能够提供个性化响应和适应特定需求。这些智能体的内存可能包含用户偏好、历史交互、明确陈述的需求、推断的目标、领域特定知识和个人化的推理策略[813, 1341]。
个性化记忆通常组织成用户简档或领域模型,这些模型随着时间的推移通过与用户交互不断演变。智能体可能使用主动学习策略,询问澄清问题以填补记忆空白,并验证关于用户偏好的假设[813]。内存系统可能实现隐私保护机制,如本地存储敏感信息、数据最小化和用户控制的记忆修改或删除。
在教育、医疗和客户服务等领域,个性化记忆智能体能够提供定制化体验,例如记住学生的学习风格、患者的医疗历史或客户的产品偏好,从而提供更相关和有效的支持[105, 842]。
5.2.3. 评估与挑战
内存系统的评估面临独特挑战,因为性能不仅取决于信息检索的准确性,还取决于记忆的相关性、及时性和对整体任务性能的贡献。研究人员开发了专门的评估方法和基准来衡量这些系统的有效性,同时识别和应对关键技术挑战。
内存系统评估指标 评估内存系统需要多维度指标,考虑不同方面的性能:
- •记忆准确性:衡量检索到的记忆与当前任务或查询的相关性,以及记忆内容的事实准确性。这可能包括精确率、召回率和F1分数等检索指标,以及事实一致性评分[1176, 685]。
- •记忆及时性:评估系统是否检索到时间上适当的记忆,例如在讨论历史事件时优先考虑旧记忆,在处理最新发展时优先考虑近期信息。时间相关性指标可能包括时间距离加权评分或时序一致性检查[1362, 685]。
- •上下文连贯性:衡量记忆如何有效地支持连贯的交互和推理,特别是在多轮对话或复杂任务中。这可能通过人类评估或自动连贯性评分来衡量,评估整体流、引用一致性和主题保持[813, 1176]。
- •容量效率:评估系统在有限资源下管理大量记忆的能力,包括压缩率、存储效率和检索速度。效率指标可能包括每单位信息的存储成本、检索延迟和内存使用随时间的增长速率[813, 1333]。
- •适应性和学习:衡量系统从经验中学习和改进的能力,包括性能随时间的提升、对新情况的适应速度以及避免重复错误的能力[956, 857]。
LongBench和MemBench等基准提供了评估长上下文和内存能力的标准化任务和数据集,包括文档理解、多轮对话、知识保留和时间推理任务[685, 1176]。这些基准帮助研究人员比较不同内存系统的性能,并识别优势和局限性。
关键挑战和限制 内存系统面临几个关键挑战,这些挑战继续推动研究和创新:
中间迷失现象:实证研究表明,LLMs在访问长上下文中间部分的信息时表现出显著困难,这种“中间迷失”效应在内存系统中尤为明显[128, 685]。当相关信息出现在长序列的中间时,模型的检索准确性和记忆引用质量显著下降,这可能是由于注意力分布不均和位置偏差造成的[128, 685]。解决这一问题的策略包括重新排序记忆项、使用结构化索引、实施显式中间标记,以及开发对位置不太敏感的注意力机制[128, 648]。
记忆污染和干扰:记忆系统容易受到记忆污染的影响,其中无关或错误的信息干扰对相关记忆的检索和使用。这可能表现为:
- •前摄干扰:旧记忆干扰新记忆的学习或检索。
- •倒摄干扰:新记忆干扰旧记忆的检索。
- •错误记忆:模型“记住”从未发生过的事件或事实,这可能是由于训练数据中的偏差、生成过程中的幻觉或记忆整合过程中的错误关联[1342, 200]。
减轻这些影响的策略包括实施更严格的记忆验证、使用分离的记忆存储减少干扰、采用基于可靠性的记忆加权,以及开发更好的记忆整合机制[1342, 200]。
动态环境适应:在快速变化的环境中,记忆系统面临保持信息时效性的挑战,旧记忆可能变得过时或不相关。这在新闻、金融和技术等领域尤为突出,其中信息快速演变[1159, 438]。解决这一问题的方法包括:
•时间衰减机制:自动降低旧记忆的权重或优先级。
•主动更新:定期验证和更新关键记忆。
•环境感知记忆:根据环境变化信号调整记忆相关性[1362, 438]。
计算和存储限制:随着记忆库的增长,存储和检索的计算成本可能变得过高,影响系统性能和可扩展性。平衡记忆容量与计算效率是一个持续的挑战,推动了更高效的压缩算法、稀疏记忆表示和动态内存分配策略的发展[813, 1333]。
隐私和安全问题:内存系统,特别是那些存储用户数据和个人信息的系统,面临重大的隐私和安全挑战。记忆可能包含敏感信息,如个人偏好、医疗数据或商业秘密,需要保护免受未授权访问或滥用[583, 842]。解决这些问题的策略包括:
•本地内存存储:在用户设备上保留敏感记忆,而不是集中存储。
•加密和访问控制:保护记忆数据免受未授权访问。
•记忆匿名化:去除或模糊个人身份信息。
•用户控制机制:允许用户查看、编辑或删除他们的记忆[813, 583]。
这些挑战的解决对于开发更可靠、高效和值得信赖的内存系统至关重要,这些系统能够支持下一代上下文感知AI应用。
5.3. 工具集成推理
工具集成推理使大型语言模型能够超越纯文本交互,通过调用外部工具、API和服务与世界交互,扩展其能力并连接到实时数据和计算资源。这种集成将LLMs从文本处理器转变为能够执行实际任务的系统,如数据分析、信息检索、代码执行和物理世界交互。工具集成推理代表了上下文工程的一个关键系统实现,结合了上下文检索与生成、处理和管理的基础组件,以实现与外部工具的无缝交互。
5.3.1. 函数调用机制
函数调用机制构成了工具集成推理的基础,定义了LLMs如何识别调用工具的需求、构造适当的请求、解释结果并将这些结果整合到整体推理过程中。这些机制需要精确的格式规范、类型检查和错误处理,以确保可靠和有效的工具交互。
函数调用格式和规范 有效的函数调用需要明确定义的格式,使模型能够生成机器可解析的工具请求,同时保持自然语言理解的灵活性。最常见的方法是使用结构化格式(如JSON)包裹函数调用参数,通常包含在特殊标记中以与自然语言文本区分开[931, 858]。
典型的函数调用格式包括:
• 函数名称:指定要调用的工具或函数。
• 参数:键值对的集合,提供函数执行所需的输入。
• 调用ID:可选的唯一标识符,用于跟踪异步调用或关联多个相关调用。
• 优先级:可选的优先级指示符,用于排序多个函数调用[931, 858]。
例如,OpenAI的函数调用API使用以下格式:
{
"name": "function_name",
"parameters": {
"key1": "value1",
"key2": "value2"
}
}
包裹在<FunctionCallBegin>
和<FunctionCallEnd>
等特殊标记中[931]。这种结构化格式使工具能够轻松解析和执行请求,同时允许模型在自然语言推理中嵌入函数调用。
函数调用规范还包括类型定义、参数约束和返回格式,这些通常在工具描述中提供给模型。这些描述类似于API文档,详细说明每个函数的目的、参数要求、返回值和潜在错误[931, 858]。模型使用这些描述来确定哪个函数适合特定任务,验证参数的正确性,并理解预期的输出格式。
工具选择和参数生成 工具集成推理的核心挑战是确定何时调用工具以及如何生成适当的参数。这一过程通常包括几个步骤:
1.需求识别:模型分析当前任务或查询,确定是否需要外部工具的帮助,或者是否可以仅使用内部知识回答。
2.工具选择:如果需要工具,模型从可用工具库中选择最合适的工具,考虑功能匹配、过去的成功经验和当前上下文。
3.参数生成:模型生成工具所需的参数,确保它们符合格式要求、类型约束和值范围。
4.调用验证:模型可能检查函数调用的有效性,包括参数完整性和格式正确性,在必要时进行修正[931, 663, 858]。
研究表明,提示工程技术(如思维链和少样本示例)显著提高工具选择和参数生成的准确性[1245, 663]。ReAct框架展示了如何将推理步骤与动作(包括函数调用)交替进行,使模型能够逐步推理需求,生成更准确的工具调用[1245]。
工具选择和参数生成还可以通过强化学习或监督微调来改进,模型从成功和失败的函数调用中学习[663, 858]。例如,Toolformer通过在大规模数据集上微调模型,使其能够决定何时调用工具、选择哪个工具以及如何使用结果,显著提高了工具使用能力[663]。
错误处理和重试机制 函数调用不可避免地会遇到错误,有效的错误处理机制对于可靠的工具集成推理至关重要。这些机制包括:
•错误检测:识别不同类型的错误,如格式错误、参数无效、工具不可用、权限问题或超时。
•错误解释:理解错误原因,这可能涉及解析错误消息、检查参数约束或验证工具状态。
•重试策略:生成修正后的函数调用,可能包括调整参数、选择替代工具或请求更多信息。
•降级策略:当工具调用持续失败时,提供替代响应或通知用户限制[931, 858, 663]。
AutoGen等框架实现了复杂的错误处理循环,其中智能体可以反思错误,请求澄清,并迭代改进函数调用,直到成功或确定无法完成[25]。这些机制显著提高了工具集成系统的鲁棒性,特别是在不可靠或不断变化的工具环境中。
5.3.2. 工具集成推理
工具集成推理将函数调用机制与高级推理策略结合,使模型能够使用工具作为推理过程的一部分,而不仅仅是获取信息的手段。这些系统能够规划工具使用序列,解释工具输出,并将工具结果整合到连贯的推理链和最终响应中。
推理规划与工具使用 复杂任务通常需要多个工具调用的协调序列,推理规划是确定这些调用的顺序、时机和目的的过程。这可能涉及:
•任务分解:将复杂任务分解为需要工具调用的子任务。
•顺序规划:确定工具调用的最佳顺序,考虑依赖关系(例如,一个工具的输出可能是另一个工具的输入)。
•资源分配:管理工具调用的频率和复杂性,平衡准确性与效率。
•不确定性管理:当信息不完整时,决定何时调用工具获取更多数据,何时基于现有信息继续[438, 1183, 858]。
Plan-and-Execute等框架展示了如何将规划与工具使用明确分离,使用一个专门的规划器智能体生成子任务序列,另一个执行器智能体执行这些子任务并调用必要的工具[438]。这种分离使系统能够处理更复杂的任务,并更容易调试和改进规划或执行组件。
推理规划可以通过多种方法实现,包括基于规则的系统、强化学习和基于案例的推理[438, 1183]。例如,WebGPT使用强化学习从人类示范中学习有效的网页浏览和信息检索策略,显著提高了需要多步工具使用的问答性能[1183]。
工具输出整合与解释 工具调用的结果需要被整合到推理过程中,并以对用户有用的方式进行解释。这涉及:
•结果解析:从工具输出中提取相关信息,这可能涉及处理结构化数据(如JSON、表格)、非结构化文本或多媒体内容。
•结果验证:评估工具输出的相关性、准确性和完整性,可能涉及与其他来源交叉检查或应用逻辑一致性检查。
•结果综合:将多个工具调用的结果合并成连贯的理解,可能涉及识别冲突、解决不一致或突出关键发现。
•自然语言解释:将技术工具输出转换为用户友好的解释,同时保留关键细节和不确定性[931, 858, 1245]。
RAG与工具集成的结合展示了如何将检索到的信息与工具生成的数据结合,例如使用搜索引擎获取最新信息,同时使用知识图谱验证事实,并将两者整合到全面响应中[591, 311]。这种整合需要复杂的推理能力,以确定不同信息源的相对可靠性和相关性。
多工具协同 许多任务需要多个工具的协同使用,每个工具贡献不同类型的能力或信息。多工具协同涉及:
•工具能力映射:理解每个工具的优势、局限性和适用场景。
•互补使用:组合工具以弥补彼此的弱点(例如,使用计算器确保数值准确性,同时使用文本生成工具解释结果)。
•数据转换:在工具之间转换数据格式,使一个工具的输出可以被另一个工具使用。
•一致性维护:确保跨工具调用的上下文一致性,例如保持相同的查询参数或用户偏好[25, 858, 931]。
HuggingGPT等系统展示了如何协调多个AI模型和工具,将任务分配给最适合的工具,转换数据格式,并整合结果,显著扩展了单个模型的能力范围[1397]。这些系统能够处理需要多种能力的复杂任务,如数据分析、图像生成、语音识别和文本摘要的组合。
5.3.3. 智能体-环境交互
工具集成推理的最终扩展是智能体-环境交互,其中LLM驱动的智能体使用工具作为与物理或数字环境交互的手段。这些智能体不仅能够获取信息,还能执行操作、改变环境状态并实现目标,代表了上下文工程最复杂的系统实现之一。
环境建模与状态跟踪 与环境交互的智能体需要某种形式的环境模型来理解其操作的影响并规划未来行动。这可能包括:
•状态表示:捕捉环境的相关方面,如对象、关系、当前条件和历史交互。
•动态模型:预测行动如何改变环境状态,这可能是基于规则的、学习的或两者的组合。
•不确定性处理:表示和管理关于环境状态的不确定性,这对于部分可观察环境尤为重要。
•状态更新:根据观察和行动结果更新环境模型[128, 368, 856]。
WebGPT等数字环境智能体维护网页浏览环境的模型,包括当前页面、导航历史和已收集的信息,使用这些模型规划下一步导航和信息收集[1183]。在物理环境中,如机器人控制,智能体可能维护更复杂的空间和物理模型,结合传感器数据和工具反馈更新这些模型[856, 128]。
环境模型通常与智能体的内存系统紧密集成,长期记忆存储环境的持久特性,工作记忆跟踪当前状态和短期目标[128, 368]。这种集成使智能体能够随着时间的推移积累环境知识,并利用过去的经验改进未来的交互。
目标导向行动与反馈循环 目标导向的环境交互涉及将高级目标转换为具体行动序列,并使用环境反馈评估进展。这一过程通常遵循某种形式的感知-规划-行动循环:
1.感知:通过工具和传感器获取环境信息。
2.规划:基于当前状态和目标,生成行动计划。
3.行动:执行计划的一部分,通常通过工具调用。
4.反馈:观察行动结果,评估与目标的进展。
5.适应:根据反馈调整计划或目标[128, 368, 856]。
AutoGPT等框架实现了这种循环,使智能体能够设定目标,使用工具执行任务,反思结果,并相应地调整策略[1087]。这些系统能够处理需要长期规划和适应的复杂任务,如项目管理、研究协助和自主学习。
反馈循环的有效性取决于反馈的质量和智能体解释反馈的能力。在某些情况下,反馈可能是直接的(如任务完成确认),而在其他情况下,可能需要更复杂的解释(如用户情绪或系统性能指标)[856, 128]。强化学习技术可以帮助智能体从反馈中学习,改进行动选择和规划[368, 856]。
数字与物理世界交互 智能体-环境交互跨越数字和物理领域,每种领域都有其独特的挑战和机遇:
•数字环境:包括网页、软件应用、数据库和虚拟世界。与这些环境交互通常通过API、浏览器控制、文件操作和用户界面自动化实现。数字环境交互的优势包括精确的工具控制、即时反馈和丰富的数据访问。挑战包括处理不断变化的界面、管理认证和权限,以及在复杂系统(如操作系统或开发环境)中导航[1183, 1087, 25]。
•物理环境:涉及通过机器人、传感器和执行器与物理世界交互。物理交互通常需要更专门的工具,如运动控制器、图像识别系统和环境传感器。挑战包括处理物理世界的不确定性、延迟和噪声,以及确保安全操作。优势包括直接影响物理世界的能力和获取真实世界经验[856, 128, 368]。
弥合数字和物理世界的智能体,如物联网(IoT)控制器,能够将数字指令转换为物理行动,并将物理传感器数据整合到数字决策过程中[856]。这些智能体代表了上下文工程的前沿,需要整合复杂的环境建模、工具使用和内存管理,以在动态和多样化的环境中有效运作。
5.4. 多智能体系统
多智能体系统将多个大型语言模型驱动的智能体组织成协调的集合,通过通信、协作和分工解决复杂问题。这些系统利用智能体的多样性和专门化,实现单个智能体难以或不可能完成的目标。多智能体系统代表了上下文工程的最高级系统实现之一,需要整合所有基础组件,并解决智能体间交互的独特挑战。
5.4.1. 通信协议
有效的多智能体系统依赖于明确定义的通信协议,规范智能体如何交换信息、协调行动和解决冲突。这些协议定义了通信的内容、格式、时机和目标,确保信息准确传达并被正确理解。
消息传递格式 多智能体通信的基础是标准化的消息传递格式,这些格式平衡了表达能力与简单性,使不同智能体能够有效交互。常见的消息组件包括:
•发送者和接收者标识:指定消息的来源和目标。
•消息类型:指示消息的目的,如查询、响应、命令、通知或提议。
•内容:实际信息,可能包括文本、结构化数据(如JSON)、引用或工具调用。
•元数据:包括时间戳、优先级、对话ID或上下文引用,帮助维持对话连贯性[246, 894, 356]。
AutoGen和ChatGPT插件系统等框架实现了灵活的消息格式,允许智能体交换自然语言文本以及结构化指令和数据[25, 931]。这些格式通常支持嵌套消息和引用,使智能体能够回复特定点或整合多个先前消息的上下文。
更正式的协议,如基于知识查询与操作语言(KQML)或代理通信语言(ACL)的协议,为特定领域提供更严格的结构,适合需要精确信息交换的应用,如分布式问题解决或工业自动化[356, 894]。
对话管理与上下文共享 多智能体系统中的对话管理确保通信有组织、连贯,并朝着共同目标推进。这涉及:
•对话结构:定义对话的形式,如轮次对话、层次对话或基于主题的讨论。
•上下文跟踪:维护跨消息的对话状态,包括已讨论的内容、待解决的问题和已达成的协议。
•上下文共享:在智能体之间传递相关上下文,这可能涉及完整对话历史的共享、相关片段的摘要,或专门的上下文表示。
•话题转移:管理话题的引入、发展和转换,确保对话保持相关性和效率[246, 894, 356]。
Swarm等框架实现了动态对话管理,其中智能体可以根据需要加入或离开对话,上下文根据参与者和话题动态调整[246]。这些系统通常使用某种形式的共享内存或黑板系统,智能体可以读写信息,减少冗余通信并促进上下文一致性[894, 356]。
意图表达与理解 有效的多智能体通信需要智能体能够清晰表达意图并准确理解其他智能体的意图。这涉及:
•意图表示:明确表达目标、需求、假设或计划,可能通过声明性陈述、疑问句或行动提议。
•意图识别:推断其他智能体未明确表达的潜在意图或目标,这可能基于历史行为、上下文线索或领域知识。
•歧义处理:解决模糊或不明确的消息,可能通过请求澄清或使用默认假设。
•协作意图:表达合作意愿和共同目标,促进协调而非竞争[246, 894, 128]。
意图理解通常通过结合自然语言理解、领域知识和智能体模型(关于其他智能体的能力、目标和偏好的知识)来实现[128, 356]。在复杂系统中,智能体可能使用显式的意图表示语言,减少歧义并促进自动化意图处理[894]。
5.4.2. 编排机制
编排机制协调多智能体系统中智能体的活动,确保它们的行动以协同方式推进共同目标。这些机制解决任务分配、同步和资源协调的挑战,使系统作为一个整体高效运作。
任务分配与角色分工 有效的多智能体系统依赖于清晰的任务分配和角色分工,确保适当的智能体处理适当的任务。这涉及:
•能力建模:维护每个智能体能力、专长和限制的模型。
•任务分解:将复杂目标分解为可管理的子任务,每个子任务适合特定类型的智能体。
•任务分配:根据能力、可用性、历史性能或负载平衡将子任务分配给智能体。
•角色定义:建立长期角色(如协调者、专家或执行者),提供系统稳定性和可预测性[246, 894, 356]。
AutoGen等框架实现了灵活的任务分配,其中智能体可以自荐承担任务、协商分工,或由专门的协调智能体分配任务[25]。在某些系统中,任务分配是动态的,随着情况变化或智能体性能调整,确保系统适应不断变化的需求[246, 894]。
工作流与流程协调 工作流和流程协调机制管理任务的顺序和依赖关系,确保多智能体系统中的活动以逻辑和高效的方式进行。这包括:
•流程建模:定义任务之间的依赖关系(如“任务B必须在任务A完成后开始”)。
•进度跟踪:监控每个任务的状态,识别瓶颈或延迟。
•同步机制:协调需要同时或按特定顺序执行的任务。
•异常处理:当任务失败或延迟时调整工作流,可能包括重新分配任务或修改流程[894, 356, 246]。
这些机制在需要严格流程的领域特别重要,如软件开发、医疗程序或供应链管理,其中任务顺序和依赖关系对成功至关重要[356, 894]。工作流协调可以通过基于规则的系统、可视化流程模型或专用工作流语言实现[894]。
资源协调与冲突解决 多智能体系统中的智能体经常需要共享资源或处理相互竞争的目标,有效的资源协调和冲突解决机制对于维持系统和谐和效率至关重要。这些机制包括:
•资源分配:管理对共享资源(如计算能力、数据或工具)的访问,确保公平性和效率。
•冲突检测:识别目标、行动或资源需求之间的冲突。
•协商策略:解决冲突的结构化方法,如讨价还价、妥协或优先级排序。
•仲裁机制:当协商失败时,由中立的协调智能体做出决策[894, 356, 128]。
冲突解决策略可以从合作(寻求对所有智能体都有利的解决方案)到竞争(优先考虑自身目标)不等,具体取决于系统设计和应用场景[128, 356]。在某些情况下,冲突解决可能涉及参考外部标准,如规则、政策或全局目标,确保决策与系统整体目标一致[894]。
5.4.3. 协调策略
协调策略定义了多智能体系统中智能体如何随时间协作,从简单的直接交互到复杂的全局规划。这些策略平衡了集中控制与分布式自主,提供了实现系统目标的不同方法。
集中式与分布式协调 多智能体系统的协调策略通常落在集中式和分布式方法的频谱上:
•集中式协调:由单个协调智能体或中央控制器管理所有智能体的活动。这种方法的优势包括全局视角、一致的决策和简化的冲突解决。缺点包括单点故障风险、可扩展性限制,以及对中央控制器的过度依赖[246, 894, 356]。
•分布式协调:智能体自主决策并直接与其他智能体交互,没有中央控制器。优势包括更高的鲁棒性、更好的可扩展性和更强的适应性。挑战包括确保全局一致性、管理局部决策的全局影响,以及协调的复杂性增加[128, 356, 894]。
许多现代系统采用混合方法,结合集中式和分布式协调的元素。例如,一个中央协调器可能设置全局目标和资源分配,而智能体自主决定如何实现其分配的目标并与其他智能体协作完成子任务[246, 25]。
自适应与动态协调 自适应协调策略使多智能体系统能够根据情况变化调整其协作方式。这些策略包括:
•情境感知:根据当前环境条件、任务要求或系统状态调整协调机制。
•学习型协调:从经验中学习有效的协作模式,改进随时间的协调。
•自组织:允许系统结构和协调模式从智能体交互中涌现,而非预先定义。
•弹性调整:在系统变化(如智能体加入或离开、能力变化或目标修改)时维持有效协调[128, 356, 894]。
这些策略在动态环境中特别有价值,如应急响应、市场分析或自适应学习系统,其中条件和需求可能迅速变化[128, 356]。强化学习和进化算法可以帮助开发这些自适应策略,使系统能够发现有效的协调模式,即使在复杂和不可预测的环境中[894, 356]。
多智能体规划与推理 多智能体规划与推理涉及协调智能体的规划过程,确保个体计划的兼容性并促进集体目标的实现。这包括:
•联合规划:智能体共同开发单一计划,明确考虑彼此的行动和目标。
•协调规划:智能体开发个体计划,然后调整它们以确保兼容性。
•规划识别:推断其他智能体的计划和目标,以相应调整自己的计划。
•分布式推理:将复杂推理任务分配给多个智能体,每个智能体贡献专业知识,然后整合结果[894, 356, 128]。
多智能体规划面临的关键挑战是如何在保持智能体自主性的同时确保计划的一致性,以及如何处理不确定性和部分信息[356, 894]。这些挑战推动了诸如基于承诺的规划(智能体做出并尊重承诺)、基于博弈论的规划(考虑其他智能体的潜在策略)和层次化规划(在不同抽象级别协调)等方法的发展[128, 894]。
多智能体系统中的上下文工程 多智能体系统代表了上下文工程的终极应用,需要复杂的上下文管理来支持智能体交互。这包括:
•共享上下文表示:开发所有智能体都能理解的通用上下文格式。
•上下文对齐:确保不同智能体对相同上下文有一致的理解。
•上下文传播:在智能体之间有效地传递相关上下文,避免信息过载。
•分布式内存:管理跨多个智能体的内存,确保关键信息可访问,同时保护敏感数据[25, 246, 894]。
有效的上下文工程对于多智能体系统的成功至关重要,因为智能体之间的大多数协调和通信都依赖于共享的上下文理解。随着多智能体系统规模和复杂性的增长,上下文工程的重要性只会增加,为未来研究提供丰富的机会[25, 128]。
6. 评估
评估上下文工程技术对于理解其有效性、局限性和改进机会至关重要。随着该领域的快速发展,需要全面的评估框架、多样化的基准数据集和严谨的方法来评估从基础组件到复杂系统实现的各个层面。本部分概述了当前的评估实践、关键挑战和新兴趋势,为研究人员和实践者提供评估上下文工程技术的指南。
6.1. 评估框架和方法
上下文工程的评估需要多维度框架,考虑不同的抽象层次、性能指标和评估场景。有效的评估方法必须超越简单的准确性测量,涵盖上下文使用的效率、连贯性、鲁棒性和实用性。
6.1.1. 组件级评估
组件级评估关注上下文工程基础组件的个体性能,包括上下文检索与生成、处理和管理技术。这种模块化评估有助于识别特定组件的优势和弱点,并指导有针对性的改进。
上下文检索与生成评估 评估上下文检索与生成技术涉及测量:
•相关性:检索或生成的上下文与当前任务或查询的匹配程度。这通常通过精确率、召回率、F1分数和平均倒数排名(MRR)等信息检索指标来衡量[591, 311]。
•多样性:生成或检索的上下文覆盖不同方面或视角的程度,避免冗余并确保全面性[799, 576]。
•创造性/适当性:在需要生成新内容的场景中,评估生成的上下文的创造性、适当性和与任务的契合度[1138, 1246]。
•提示有效性:衡量提示工程技术引导模型产生期望输出的能力,可能涉及特定任务性能提升的量化[25, 702]。
评估方法包括与人工生成的理想上下文进行比较、使用相关性判断数据集,以及分析不同检索或生成策略对下游任务性能的影响[591, 311]。对于提示工程,常见的方法是比较不同提示策略在相同任务上的性能,使用控制变量法隔离特定提示技术的影响[25, 702]。
上下文处理评估 上下文处理技术的评估关注:
•长上下文理解:模型在超长序列中识别和使用相关信息的能力,特别是在处理"中间迷失"现象方面的有效性[685, 128]。
•结构化信息整合:模型处理和整合结构化数据(如知识图谱、表格)的能力,衡量结构保留度和关系理解准确性[489, 47]。
•自我优化效果:评估模型通过自我反思和迭代改进输出的能力,通常通过比较初始输出和优化后输出的质量差异[735, 956]。
•多模态融合:在多模态上下文中,评估不同模态信息整合的连贯性和准确性[105, 49]。
评估方法包括设计专门的长上下文任务(如长文档问答)、结构化信息理解测试(如表格推理),以及分析自我优化过程中的性能提升模式[685, 489, 735]。对于多模态处理,评估可能涉及跨模态检索任务或需要综合文本和视觉信息的推理任务[105, 49]。
上下文管理评估 上下文管理技术的评估涉及:
•内存准确性:记忆系统存储和检索信息的准确性,包括事实准确性和时间一致性[813, 1362]。
•内存效率:在保持性能的同时使用内存资源的效率,包括压缩率、存储需求和检索速度[813, 1333]。
•上下文窗口扩展效果:衡量内存管理技术有效扩展模型有效上下文窗口的程度[1176, 685]。
•遗忘率:评估系统随时间保留关键信息的能力,以及减少不相关信息干扰的有效性[1362, 956]。
评估方法包括记忆检索任务(如在长对话中回忆特定细节)、效率基准测试(测量时间和空间复杂度),以及分析不同内存管理策略在长时间交互中的表现[813, 1362, 1176]。
6.1.2. 系统级集成评估
系统级评估关注上下文工程组件如何协同工作以实现复杂功能,评估整体系统性能而非个体组件。这种评估更接近实际应用场景,考虑组件交互和端到端性能。
检索增强生成(RAG)系统评估 RAG系统的评估包括:
•事实准确性:生成内容与检索到的上下文的一致性,以及内容的客观真实性[720, 1342]。
•引用准确性:生成内容正确引用检索到的源材料的程度,包括引用相关性和位置准确性[720, 1342]。
•回答质量:综合评估相关性、全面性、清晰度和有用性,通常通过人类评估和自动指标(如ROUGE、BLEU)的组合[591, 311]。
•检索-生成对齐:评估检索到的上下文与生成内容之间的映射质量,确保生成内容基于检索到的信息而非内部知识[41, 799]。
评估方法包括使用专门的RAG基准(如FaithDial、QAMPARI)、事实一致性评估模型(如Faithfulness、TruthfulQA),以及人类评估协议,重点关注事实准确性和源使用[591, 720]。
内存系统评估 内存系统的整体评估关注:
•长期连贯性:在长时间交互中维持上下文连贯性的能力,避免矛盾和重复[813, 1176]。
•信息保留:关键信息随时间保留的程度,特别是在扩展对话或任务中[1362, 1182]。
•上下文适应:系统根据新信息更新其内存并适应不断变化的情况的能力[956, 857]。
•用户满意度:在实际应用中,评估用户对系统记忆能力的满意度和感知有用性[813, 1176]。
评估方法包括长对话模拟、信息保留测试(在延迟后询问关键细节)、连贯性分析,以及用户研究[813, 1362]。LongBench等基准提供了评估长上下文记忆能力的标准化任务[685]。
工具集成与多智能体系统评估 工具集成和多智能体系统的评估涉及:
•任务完成率:系统成功完成需要工具使用或多智能体协作的任务的比例[663, 25]。
•效率:完成任务所需的步骤、时间或资源数量,包括工具调用次数和通信开销[663, 25]。
•协作质量:多智能体系统中智能体通信和协调的有效性,包括消息相关性和任务分配合理性[128, 356]。
•鲁棒性:系统在工具故障、通信错误或智能体行为异常情况下完成任务的能力[931, 858]。
评估方法包括设计需要工具使用或协作的复杂任务(如数据分析师、旅行规划)、测量完成时间和资源使用,以及分析通信模式和协作效率[25, 663, 128]。对于多智能体系统,评估可能涉及社会选择理论中的指标,如公平性、帕累托效率和稳定性[356, 894]。
6.1.2. 系统级集成评估
系统级集成评估关注上下文工程组件如何协同工作以实现端到端功能,超越个体组件的性能,关注整体系统的有效性和实用性。这种评估通常在更接近实际应用的场景中进行。
端到端任务性能 评估上下文工程增强系统在实际任务上的整体性能,如:
•复杂问答:回答需要多步推理、外部知识或工具使用的问题[591, 1246]。
•内容创作:生成高质量、信息丰富的长文本,如报告、文章或故事[1138, 1246]。
•决策支持:提供基于复杂上下文分析的有用建议或决策辅助[842, 1326]。
•自主代理:执行需要长期规划、环境交互和自适应的复杂任务[128, 368]。
评估方法包括与人类表现比较、使用任务特定的评估指标,以及分析系统在不同难度级别任务上的表现[591, 128]。系统级评估通常采用更综合的指标,如任务成功率、用户满意度和实际应用中的采用率[25, 813]。
人机协作评估 评估上下文工程系统支持有效人机协作的能力:
•交互效率:用户完成任务所需的时间和努力,包括查询次数和修正次数[813, 25]。
•透明度:用户理解系统如何使用上下文和做出决策的程度[1342, 200]。
•可控性:用户指导或修正系统行为的能力,包括调整上下文使用和内存内容[813, 1342]。
•信任度:用户对系统处理上下文和生成结果的信任程度[200, 1342]。
评估方法包括用户研究、可用性测试、问卷调查(测量信任和满意度),以及分析交互日志以识别改进机会[813, 200]。这些评估通常在接近实际使用条件的环境中进行,涉及真实用户和有意义的任务[25, 813]。
6.2. 基准数据集和评估范式
基准数据集和标准化评估范式对于推动上下文工程研究至关重要,它们提供了比较不同方法的共同基础,并跟踪该领域的进展。当前的基准涵盖从基础组件测试到复杂系统评估的各个层面。
6.2.1. 基础组件基准
基础组件基准专注于评估上下文工程的个体组件,提供控制良好的环境来测试特定功能。
上下文检索与生成基准 这些基准评估检索和提示技术的有效性:
•检索基准:如MS MARCO、BEIR和TREC评估检索系统在各种查询类型和文档集合上的性能[591, 311]。
•提示工程基准:如SuperGLUE、GLUE和MMLU的变体,评估不同提示策略在各种语言理解任务上的表现[25, 702]。
•生成基准:如XSum、CNN/DailyMail和StoryCloze,评估生成上下文的质量、连贯性和适当性[1138, 1246]。
这些基准通常提供标准化的查询或任务描述、参考文档(如适用)和理想输出,使研究人员能够比较不同检索或生成策略的性能[591, 25]。
上下文处理基准 评估长上下文和结构化信息处理的基准:
•长上下文基准:如LongBench、L-Eval和PG-19,评估模型在超长文档理解、记忆和推理方面的能力[685, 1176]。
•结构化数据基准:如WikiTableQuestions、KGQA和Spider,评估模型处理表格、知识图谱和数据库的能力[489, 47]。
•多模态上下文基准:如Flickr30K、COCO和VQAv2,评估模型整合文本和视觉信息的能力[105, 49]。
这些基准通常包含具有不同长度、结构和模态的实例,测试模型在各种条件下的处理能力[685, 489]。
上下文管理基准 评估内存和上下文管理技术的基准:
•记忆基准:如MemBench和LongChat,评估模型在长对话中保留和使用信息的能力[813, 1176]。
•压缩基准:如CompressBench,评估不同压缩技术在保持信息完整性的同时减少上下文长度的有效性[813, 1333]。
这些基准通常包含需要记忆关键信息、处理信息过载或管理有限上下文资源的任务[813, 1362]。
6.2.2. 系统实现基准
系统实现基准评估完整的上下文工程系统,如RAG、内存系统、工具集成和多智能体系统。
RAG系统基准 RAG系统的基准包括:
•FaithDial和QAMPARI:评估检索到的知识在对话和问答中的使用和忠实性[720, 1342]。
•BEIR-RAG和RAG-Bench:专门设计用于评估检索增强生成系统的端到端性能[591, 311]。
•领域特定基准:如MedQA(医疗)、LegalQA(法律)和FinanceQA,评估RAG在专业领域的性能[842, 1326]。
这些基准通常提供查询、参考文档集合和理想答案,评估系统检索相关信息并生成准确、有根据的响应的能力[591, 720]。
工具集成与多智能体基准 评估工具使用和多智能体协作的基准:
•ToolBench和WebShop:评估模型使用工具和浏览网页完成任务的能力[663, 1183]。
•MultiAgentBench:评估多智能体系统在各种协作任务上的性能[128, 356]。
•Human-Agent Collaboration Benchmark:评估人机协作系统的有效性[25, 813]。
这些基准通常包含需要多个步骤、工具调用或智能体交互的复杂任务,评估系统规划、执行和适应的能力[663, 128]。
6.3. 评估挑战和新兴范式
尽管取得了进展,上下文工程的评估仍面临重大挑战,包括指标局限性、评估偏见和快速技术发展带来的基准过时。新兴评估范式正在解决这些挑战,提供更全面、更鲁棒的评估方法。
6.3.1. 方法局限性和偏差
当前评估方法存在几个关键局限性:
•指标不全面:许多常用指标(如精确率、召回率)无法捕捉上下文工程的微妙方面,如连贯性、适当性和用户体验[25, 813]。
•评估集偏差:基准数据集可能包含与实际应用不同的偏差或分布,导致评估结果不能很好地推广[685, 1176]。
•静态评估:大多数基准是静态的,无法评估系统在动态环境中的适应能力或随时间的学习能力[128, 368]。
•表面性能评估:许多评估方法关注表面性能指标,而不深入了解系统的内部工作机制或推理过程[1138, 1246]。
解决这些局限性的方法包括开发更全面的指标集、增加基准的多样性和动态性,以及结合行为分析和模型探测技术来理解系统性能背后的机制[1138, 1246]。
6.3.2. 新兴评估范式
新兴评估范式正在扩展上下文工程评估的范围和深度:
•动态和交互式评估:这些评估涉及动态生成的任务、适应性对手或与真实用户的交互,提供更接近实际使用条件的评估[128, 368]。例如,InteractiveQA涉及与环境的实时交互以收集回答问题所需的信息[368]。
•对抗性评估:使用对抗性示例测试系统的鲁棒性,这些示例被设计为挑战上下文处理能力,如误导性上下文、隐藏的相关信息或复杂的结构化数据[200, 1342]。对抗性评估有助于识别系统的脆弱性和改进机会。
•因果评估:超越相关性,评估上下文工程技术对系统性能的因果影响,使用实验设计和因果推断方法隔离特定因素的影响[25, 702]。这种评估有助于建立更可靠的技术有效性证据。
•生命周期评估:评估系统在长期使用中的性能,包括学习能力、适应性和退化模式,而非仅在固定基准上的一次性评估[128, 857]。这种评估对于理解实际部署中的系统行为至关重要。
这些新兴范式提供了更全面、更现实的评估视角,帮助研究人员开发更 robust、更有用的上下文工程技术。
6.3.3. 安全性和鲁棒性评估
随着上下文工程系统变得更加复杂和广泛部署,安全性和鲁棒性评估变得越来越重要:
•对抗性攻击抗性:评估系统抵御恶意攻击的能力,如注入有害上下文、操纵记忆内容或诱导不当工具使用[200, 1342]。
•隐私保护:评估系统保护敏感信息的能力,包括防止未经授权的信息泄露、确保内存内容的安全性,以及遵守隐私法规[583, 842]。
•偏见和公平性:评估上下文使用中的偏见,确保系统在不同人口统计群体、文化背景和使用场景中表现公平[200, 1342]。
•可靠性和安全性:评估系统在面对错误输入、工具故障或意外情况时的行为,确保不会造成伤害或提供危险建议[200, 1342]。
评估方法包括对抗性测试、隐私泄露分析、偏见审计和安全案例分析[200, 1342]。这些评估对于确保上下文工程技术的负责任开发和部署至关重要。
7. 未来方向和开放挑战
上下文工程领域仍处于早期阶段,存在大量开放挑战和有前景的研究方向。解决这些挑战将推动更强大、更可靠、更有用的上下文感知AI系统的发展,这些系统能够在复杂、动态的环境中有效运作。
7.1. 基础研究挑战
基础研究挑战涉及上下文工程的理论基础、核心机制和基本限制,解决这些挑战将为更先进的上下文工程技术奠定基础。
7.1.1. 上下文理解的理论基础
上下文工程缺乏坚实的理论基础,这限制了我们对上下文如何影响模型行为的理解以及如何系统地设计更有效的上下文处理机制。关键挑战包括:
•上下文表示理论:开发更正式的上下文表示理论,超越当前的向量嵌入方法,能够捕捉上下文的丰富结构、关系和动态特性。这可能涉及整合逻辑、语言学和认知科学的见解,建立更具表达力的上下文模型[1138, 1246]。
•上下文影响量化:创建量化上下文对模型输出影响的框架,理解不同类型的上下文信息(如事实、情感、文化背景)如何影响决策过程。这种理论将帮助设计更有效的上下文工程策略[128, 685]。
•上下文推理机制:开发更深入的上下文推理理论,解释模型如何利用上下文进行预测和决策,特别是在复杂、模糊或冲突的上下文中。这可能涉及整合因果推理、概率推理和常识推理的原则[1246, 720]。
7.1.2. 长上下文理解的基本限制
尽管取得了进展,长上下文理解仍然面临基本限制,需要从根本上重新思考模型架构和训练方法:
•注意力效率:开发超越当前Transformer限制的注意力机制,能够在保持计算可行性的同时处理百万甚至十亿级标记的序列。这可能涉及神经科学启发的记忆机制或全新的计算范式[216, 1176]。
•"中间迷失"问题:解决长上下文中间部分信息的访问和使用困难,开发能够在整个序列长度上均匀关注相关信息的机制[128, 685]。
•上下文压缩与保留平衡:开发能够在压缩长上下文的同时保留关键信息和关系的理论和方法,解决信息保留与计算效率之间的根本权衡[813, 1333]。
7.1.3. 多模态与跨模态上下文
多模态上下文理解仍处于早期阶段,面临整合不同数据类型和感官输入的根本挑战:
•统一多模态表示:开发能够无缝整合文本、图像、音频、视频和传感器数据的统一表示框架,捕捉跨模态关系和一致性[105, 49]。
•模态转换与翻译:创建能够在不同模态之间转换上下文信息的机制,允许知识从一种模态转移到另一种模态,同时保留意义和上下文[105, 49]。
•模态偏差与互补性:理解和利用不同模态的独特优势和局限性,开发能够平衡模态贡献并利用其互补性的系统[105, 49]。
7.2. 技术和方法创新
技术和方法创新将推动上下文工程实践的进步,开发更有效、更高效、更鲁棒的上下文处理技术。
7.2.1. 自适应上下文管理
未来的上下文管理系统需要更高程度的适应性和自主性,能够根据任务、环境和用户需求动态调整:
•个性化上下文处理:开发能够学习和适应个体用户上下文处理偏好的系统,提供定制化的上下文管理体验[813, 1176]。
•环境感知上下文调整:创建能够感知和适应当前环境特性(如噪声水平、可用资源、时间约束)的上下文管理系统[128, 368]。
•自优化上下文策略:开发能够自主学习和改进上下文处理策略的系统,基于反馈和性能指标不断优化[956, 857]。
7.2.2. 智能体与上下文工程的融合
智能体架构与上下文工程的深度融合将创造更强大、更灵活的AI系统:
•上下文感知智能体:开发具有高级上下文理解能力的智能体,能够在复杂环境中理解和利用丰富的上下文线索[128, 368]。
•群体上下文学习:创建能够在多智能体系统中共享和学习上下文处理策略的机制,使群体能够集体发展更有效的上下文工程方法[128, 356]。
•人机上下文融合:开发能够无缝整合人类和AI智能体上下文的系统,促进更自然、更有效的人机协作[25, 813]。
7.2.3. 可解释性与透明度
提高上下文工程系统的可解释性和透明度对于建立信任和确保负责任的使用至关重要:
•上下文影响解释:开发能够解释特定上下文如何影响模型决策的方法,提供上下文-输出关系的可理解说明[200, 1342]。
•上下文使用可视化:创建直观的可视化工具,展示模型如何处理、存储和使用上下文信息,帮助用户和开发者理解系统行为[200, 1342]。
•可解释的上下文工程:设计从根本上更可解释的上下文处理机制,而非事后添加解释层,确保上下文使用的透明度[200, 1342]。
7.3. 应用与社会影响
上下文工程的进步将在广泛的应用领域产生深远影响,同时带来重要的社会和伦理考量。
7.3.1. 领域特定应用
上下文工程技术将在特定领域实现突破性应用:
•医疗健康:开发能够整合患者历史、医学文献和实时监测数据的上下文感知系统,支持更精准的诊断和个性化治疗[842, 583]。
•教育:创建能够适应学生学习历史、认知风格和当前理解水平的教育智能体,提供高度个性化的学习体验[105, 49]。
•科学研究:开发能够整合跨学科知识、实验数据和研究历史的上下文工程系统,加速科学发现和创新[1326, 1062]。
•智能城市与环境:创建能够处理复杂城市系统中多源、多模态上下文信息的系统,支持更有效的城市管理和环境监测[856, 128]。
7.3.2. 伦理与社会挑战
上下文工程的广泛应用带来了重要的伦理和社会挑战:
•隐私与监控:平衡上下文工程系统对个人信息的需求与隐私保护,防止过度监控和个人数据滥用[583, 842]。
•信息权与上下文控制:确定谁拥有和控制上下文信息,以及个人如何管理和限制其上下文数据的使用[583, 842]。
•公平与偏见:确保上下文工程系统不会放大或强化现有偏见,而是促进公平和包容的决策[200, 1342]。
•依赖与自主性:管理人类对上下文感知AI系统的依赖,确保技术增强而非削弱人类自主性和判断能力[200, 1342]。
7.3.3. 未来愿景
上下文工程的长期愿景是创建能够像人类一样自然、灵活地理解和使用上下文的AI系统,同时克服人类认知的局限性。这样的系统将能够:
•无缝整合上下文:在处理信息时自然整合广泛的上下文因素,包括历史、环境、社会规范和个人偏好。
•动态适应上下文变化:灵活适应不断变化的上下文条件,调整行为和决策以保持相关性和有效性。
•与人类共享上下文:与人类用户建立共享的上下文理解,促进自然、直观的交互和协作。
•负责任地使用上下文:在使用上下文信息时表现出伦理意识和责任感,尊重隐私、公平和人类价值观。
实现这一愿景将需要跨学科合作,整合AI研究、认知科学、语言学、伦理学和社会科学的见解,创造不仅技术先进而且对社会有益的上下文工程系统。
8. 结论
上下文工程代表了人工智能发展的一个关键前沿,将大型语言模型从强大但有限的文本处理器转变为能够理解和利用丰富上下文的智能系统。通过系统地解决上下文检索与生成、处理和管理的挑战,上下文工程为构建更强大、更灵活、更有用的AI应用奠定了基础。
本综述概述了上下文工程的理论基础、核心组件、系统实现和评估方法,强调了从提示工程的简单实践到复杂多智能体系统的演变。我们探讨了长上下文处理、多模态整合、外部知识检索和自主内存管理等关键技术挑战,以及它们在检索增强生成、内存系统、工具集成和多智能体协作中的应用。
上下文工程的未来将取决于基础研究的进展、技术创新的突破,以及对伦理和社会影响的认真考量。随着该领域的发展,我们有望看到能够更自然地与人类交互、更有效地处理复杂任务,并在广泛应用中提供实质性价值的AI系统。
最终,上下文工程的目标不仅是创建更强大的AI技术,而且是开发能够增强人类能力、促进知识获取,并为社会带来广泛益处的系统。通过持续的研究、创新和负责任的部署,上下文工程将在塑造人工智能的未来方面发挥核心作用。
参考资料
• 标题:Context Engineering for Large Language Models: A Survey
• 作者:Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu
• 单位:中国科学院计算技术研究所、加州大学默塞德分校、昆士兰大学、北京大学、清华大学、中国科学院大学等
• 标签:大型语言模型(LLMs)、上下文工程、检索增强生成(RAG)、智能体、多智能体系统、内存系统、工具集成推理、长上下文处理
• 概述:本文全面系统地综述了大型语言模型的上下文工程,提出了涵盖基础组件与系统实现的分类法,分析了1400多篇研究论文,指出了模型能力的不对称性并规划了未来研究方向。
• 链接:https://arxiv.org/pdf/2507.13334
本文转载自旺知识,作者:旺知识
