大型语言模型的上下文工程（Context Engineering）综述精华

发布于 2025-8-6 06:51

浏览

0收藏

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

摘要

大型语言模型（Large Language Models，LLM）的性能在根本上取决于推理过程中提供的上下文信息。本综述首次提出并定义了上下文工程（Context Engineering），这一正式学科超越了简单的提示设计，涵盖了对LLM信息负载的系统性优化。我们提出了一种全面的分类框架，将上下文工程分解为基础组件和集成这些组件的复杂系统实现。首先，我们考察了基础组件：（1）上下文检索与生成（Context Retrieval and Generation），包括基于提示的生成和外部知识获取；（2）上下文处理（Context Processing），涉及长序列处理、自我优化和结构化信息整合；（3）上下文管理（Context Management），涵盖内存层次结构、压缩和优化策略。接着，我们探讨了这些组件如何在架构上集成以构建复杂的系统实现：（1）检索增强生成（Retrieval-Augmented Generation，RAG），包括模块化、代理式和图增强架构；（2）内存系统（Memory Systems），支持持续交互；（3）工具集成推理（Tool-Integrated Reasoning），用于函数调用和环境交互；（4）多代理系统（Multi-Agent Systems），协调通信和编排。通过对超过1400篇研究论文的系统性分析，本综述不仅为该领域提供了一份技术路线图，还揭示了一个关键研究差距：当前模型在理解复杂上下文方面表现出色，但在生成同样复杂、长篇输出的能力上存在显著局限性。解决这一差距是未来研究的核心优先级。本综述最终为研究人员和工程师提供了一个统一的框架，以推动上下文感知AI的进步。

1. 引言

大型语言模型（LLM）的出现标志着人工智能领域的范式转变，展现了在自然语言理解、生成和推理方面的前所未有能力[103, 1067, 459]。然而，这些模型的性能和效能从根本上受其接收的上下文控制。这些上下文——从简单的指令性提示到复杂的外部知识库——是引导模型行为、增强知识和释放潜能的主要机制。随着LLM从基本的指令跟随系统演变为复杂应用的核心推理引擎，设计和管理信息负载的方法也相应演变为上下文工程（Context Engineering）这一正式学科[25, 1265, 1068]。上下文工程的领域以爆炸性速度扩展，导致了专门但分散的研究领域的激增。我们将这一领域概念化为由基础组件及其后续实现组成。基础组件代表了上下文工程的系统性流程，涵盖三个关键阶段：上下文检索与生成，包括基于提示的生成和外部知识获取[25, 597, 48]；上下文处理，涉及长序列处理、自我优化机制和结构化信息整合[200, 741, 495]；上下文管理，涵盖内存层次结构、压缩技术和优化策略[1372, 1082, 819]。

这些基础组件为更复杂的、面向应用的实现奠定了基础，这些实现将LLM与外部现实连接起来。这些系统包括：高级检索增强生成（RAG），已演变为模块化和代理式架构以实现动态知识注入[597, 316, 973, 315]；显式内存系统，模仿人类认知功能以实现持续信息保留[1191, 943, 1372]；以及智能代理系统生态，包括通过函数调用和工具集成推理与世界交互的AI代理[939, 864, 669]，以及依赖复杂代理通信协议和上下文编排的多代理配置以实现复杂目标[360, 250, 902, 128]。

尽管这些领域各自产生了显著的创新，但它们大多被孤立研究。这种分散的发展掩盖了技术之间的基本联系，并为希望了解更广泛领域的研究人员以及希望有效利用这些方法的实践者设置了重大障碍。该领域迫切需要一个统一的框架，系统性地组织这些多样化技术，阐明其基本原理并揭示其相互依赖性。

为解决这一关键差距，本综述提供了对LLM上下文工程的首次全面且系统性回顾。我们的主要贡献是一个新颖的结构化分类框架，将用于设计、管理和优化上下文的多种技术进行分类。这一分类框架将该领域组织为连贯的类别，区分基础组件及其在复杂系统实现中的整合。通过这一框架，我们：（1）提供了各领域最新技术的清晰结构化概述；（2）分析了不同方法的核心机制、优势和局限性；（3）识别了总体挑战并为未来研究指明有前景的方向。本研究既是导航上下文工程复杂领域的技术路线图，也是促进更深入理解和催化未来创新的基础。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图1：大型语言模型的上下文工程分类分为基础组件、系统实现、评估方法论和未来方向。每项领域涵盖特定技术和框架，这些技术和框架共同推进了对LLM信息负载的系统优化。

本文余下部分组织如下。在讨论相关工作并正式定义上下文工程后，我们首先考察该领域的基础组件，涵盖上下文检索与生成、上下文处理和上下文管理。然后，我们探讨其系统实现，包括检索增强生成、内存系统、工具集成推理和多代理系统。最后，我们讨论评估方法、未来研究方向并总结综述。图1提供了我们分类框架的全面概述，展示了技术的层次组织及其在上下文工程领域中的关系。

2. 相关工作

LLM的快速发展催生了大量旨在绘制其多方面领域的综述文献。这些现有工作虽然有价值，但主要集中在我们定义为上下文工程的特定垂直领域内。本综述旨在通过提供一个横向、统一的分类框架来补充这些努力，区分基础组件及其在复杂系统中的整合，从而连接这些专门领域。

基础组件

众多综述研究了上下文工程的基础组件，这些组件构成了有效上下文操作的核心技术能力。上下文检索与生成的挑战涵盖了提示工程方法和外部知识获取技术。关于提示工程的综述已记录了引导LLM行为的多种技术，从基本的少样本方法到高级结构化推理框架[25, 257, 1322]。外部知识检索和整合技术，特别是通过知识图谱和结构化数据源，在综述中得到了探讨，涉及表示技术、整合范式及其在增强LLM事实依据方面的应用[489, 432, 823, 897]。

上下文处理领域解决了长序列处理、自我优化机制和结构化信息整合的技术挑战。长上下文处理的综述分析了扩展上下文窗口、优化注意力机制和有效管理内存的技术[837, 651, 1298, 272]。LLM的内部认知过程日益受到关注，关于自我语境化和自我改进范式的综述逐渐突出[1339, 231, 1176, 943]。

最后，上下文管理文献聚焦于内存层次结构、压缩技术和优化策略，支持在计算约束下有效组织和检索信息。虽然专门针对上下文管理作为统一领域的全面综述仍较有限，但关于内存系统和上下文压缩技术的相关工作为这些关键能力提供了基础见解。

系统实现

与此同时，文献广泛涵盖了将基础组件整合为复杂架构以满足现实世界应用需求的系统实现。RAG领域受到广泛关注，基础综述追踪了其发展和对缓解幻觉（hallucination）的贡献[315, 257, 1140]。近期工作综述了模块化、代理式和图增强RAG架构的演进[166, 628, 120, 316, 1401]。

支持持续交互和认知架构的内存系统通过聚焦于内存增强代理及其应用的综述得到了探索。基于LLM的代理作为一个基础领域，提供了自主代理、其架构、规划和方法的全面概述[1099, 725, 281, 849, 1350, 504, 1281]。

工具集成推理，包括函数调用机制和代理-环境交互，得到了充分记录，探讨了从单工具系统到复杂编排框架的演进[669, 864, 777, 875]。多代理系统（MAS）的演进是另一个焦点，综述详细介绍了MAS工作流、基础设施、通信协议和协调机制[631, 360, 250, 1244, 38, 509, 191, 464]。

评估

评估这些复杂系统的关键方面得到了深入审查，相关工作分析了用于评估组件级和系统级能力的基准和方法[1268, 384, 841, 314]。这些评估文献涵盖了基础组件评估和集成系统评估范式。

我们的贡献

虽然这些综述为其各自领域提供了不可或缺的深入分析，但它们呈现了该领域的分散视图。RAG作为外部内存、工具使用作为上下文获取方法、以及提示工程作为编排这些组件的语言之间的联系往往是隐式的。我们的工作通过提出上下文工程作为一个统一的抽象概念而独树一帜，明确区分了基础组件及其在复杂实现中的整合。通过将这些分散领域组织为单一、连贯的分类框架，本综述旨在阐明它们之间的基本关系，为如何生成、处理、管理和利用上下文以引导下一代智能系统提供一个整体的地图。

3. 为什么需要上下文工程？

随着大型语言模型（LLM）从简单的指令跟随系统演变为复杂多方面应用的核心推理引擎，与其交互的方法也必须相应演变。术语“提示工程（prompt engineering）”虽然是基础，但已不足以涵盖设计、管理和优化现代AI系统所需信息负载的全部范围。这些系统不再依赖单一、静态的文本字符串，而是利用动态、结构化和多方面的信息流。为此，我们引入并正式定义了上下文工程（Context Engineering）这一学科。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图2：上下文工程演进时间线：从2020年至2025年上下文工程实现的开发轨迹的全面可视化，展示了从基础RAG系统到复杂多代理架构和工具集成推理系统的演进。

3.1. 上下文工程的定义

为了正式定义上下文工程，我们从自回归LLM的标准概率模型入手。模型由参数θ定义，给定输入上下文C，生成输出序列Y = (y1, . . . , yT)，通过最大化条件概率：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

在传统的提示工程范式中，上下文C被视为单一、静态的文本字符串，即C = prompt。这种观点对于现代系统已不足以应对。上下文工程将上下文C重新定义为动态结构化的信息组件集，c1, c2, . . . , cn。这些组件通过一组函数进行来源、过滤和格式化，并由高级组装函数A进行编排：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

这些组件ci并非任意，它们直接映射到本综述的核心技术领域：

cinstr：系统指令和规则（上下文检索与生成，4.1节）。

cknow：通过RAG或集成知识图谱检索的外部知识（RAG，5.1节；上下文处理，4.2节）。

ctools：可用外部工具的定义和签名（函数调用与工具集成推理，5.3节）。

cmem：来自先前交互的持续信息（内存系统，5.2节；上下文管理，4.3节）。

cstate：用户、世界或多代理系统的动态状态（多代理系统与编排，5.4节）。

cquery：用户的即时请求。

上下文工程的优化问题

从这一视角看，上下文工程是寻找一组最优上下文生成函数（统称为F = {A, Retrieve, Select, . . . }）的正式优化问题，以最大化LLM输出的预期质量。给定任务分布T，目标是：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

其中τ是特定任务实例，CF(τ)是F为该任务生成的上下文，Yτ∗是真实或理想输出。这一优化受限于硬约束，特别是模型的上下文长度限制，|C| ≤ Lmax。

数学原理与理论框架

这一形式化揭示了更深的数学原理。组装函数A是动态上下文编排的一种形式，即格式化和拼接操作的管道，A = Concat ◦ (Format1, . . . , Formatn)，其中每个函数必须针对LLM的架构偏见（如注意力模式）进行优化。

知识检索，cknow = Retrieve(. . . )，可被视为信息论最优性问题。目标是选择与目标答案Y∗具有最大互信息的知识，给定查询cquery：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

这确保检索的上下文不仅是语义上相似的，而且对解决任务具有最大信息量。此外，整个过程可通过贝叶斯上下文推理的视角来看待。不是确定性地构建上下文，而是推断最优上下文后验P(C|cquery, History, World)。根据贝叶斯定理，此后验与查询给定上下文的似然和上下文相关性的先验概率成正比：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

决策论目标是找到最大化可能答案分布预期奖励的上下文C∗：

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

这种贝叶斯公式为处理不确定性、通过更新先验进行自适应检索以及在多步推理任务中维护上下文信念状态提供了原则性方法。

范式比较

上下文工程的正式化突显了其与传统提示工程的根本区别。以下表格总结了关键差异。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表1：提示工程（Prompt Engineering）与上下文工程（Context Engineering）范式的比较。

总之，上下文工程为构建、理解和优化定义未来领域的复杂、上下文感知的AI系统提供了正式、系统的框架。它将焦点从提示设计的“艺术”转向信息物流和系统优化的“科学”。

上下文扩展（Context Scaling）

上下文扩展包括两个基本维度，共同定义了上下文信息处理的范围和复杂性。第一个维度是长度扩展（length scaling），解决了处理超长序列的计算和架构挑战，将上下文窗口从数千Token扩展到数百万Token，同时保持对扩展叙述、文档和交互的连贯理解。这涉及复杂的注意力机制、内存管理技术和架构创新，使模型能够在极长的输入序列中保持上下文连贯性。

第二个同样关键的维度是多模态和结构扩展（multi-modal and structural scaling），将上下文扩展到超越简单文本，涵盖多维、动态、跨模态的信息结构。这包括时间上下文（理解时间依赖关系和序列）、空间上下文（解释基于位置和几何的关系）、参与者状态（跟踪多个实体及其演变状态）、意图上下文（理解目标、动机和隐式意图）以及文化上下文（在特定社会和文化框架内解释沟通）。

现代上下文工程必须同时应对这两个维度，因为现实世界的应用要求模型不仅处理冗长的文本信息，还处理包括结构化知识图谱、多模态输入（文本、图像、音频、视频）、时间序列和人类自然理解的隐式上下文线索在内的多样化数据类型。这种多维上下文扩展方法代表了从参数扩展（parameter scaling）向开发能够理解复杂、模糊上下文的系统转变，这些系统反映了人类智能在面对复杂世界时的细腻特性[1044]。

3.2. 为什么需要上下文工程

3.2.1. 当前局限性

大型语言模型面临关键的技术障碍，需采用复杂的上下文工程方法。自注意力机制随着序列长度增加带来平方级的计算和内存开销，对处理扩展上下文构成重大障碍，并显著影响聊天机器人和代码理解模型等现实世界应用[1025, 985]。商业部署通过重复的上下文处理加剧了这些挑战，引入了额外的延迟和基于Token的定价成本[1025]。

除了计算约束外，LLM表现出令人担忧的可靠性问题，包括频繁的幻觉、对输入上下文的不忠实、输入变化的敏感性以及表面上语法正确但缺乏语义深度或连贯性的响应[959, 1288, 529]。

提示工程过程通过近似驱动和主观方法带来了方法论挑战，狭隘地关注任务特定优化而忽视了单个LLM行为[806]。尽管存在这些挑战，提示工程通过精确且上下文丰富的提示减少歧义并增强响应一致性，仍然是有效利用LLM的关键[972]。

3.2.2. 性能提升

上下文工程通过检索增强生成和叠加提示等技术显著提升性能，实现了包括文本导航准确性18倍提升、94%成功率以及通过精心构建提示和跨专门领域的自动优化获得显著收益的记录[271, 774, 687]。

结构化提示技术，特别是思考链（CoT）方法，通过中间步骤支持复杂推理，同时增强元素感知的摘要能力，整合源文档的细粒度细节[1147, 756, 1129]。通过精心选择的演示示例实现的少样本学习显著提升性能，包括代码摘要的BLEU-4分数提高9.90%以及错误修复的精确匹配指标提高175.96%[310]。

特定领域的上下文工程在专业应用中尤为有价值，执行感知的调试框架在代码生成基准上实现高达9.8%的性能提升，硬件设计应用通过专门的测试台生成和安全属性验证受益[1370, 881, 44]。这些针对性方法弥合了通用模型训练与特定领域需求之间的差距。

3.2.3. 资源优化

上下文工程通过智能内容过滤和精心设计的提示直接传输知识，提供了资源密集型传统方法的有效替代方案[636, 676]。LLM甚至在输入上下文中删除相关信息时也能生成预期响应，利用上下文线索和先验知识优化上下文长度使用，同时保持响应质量，这在数据获取具有重大挑战的领域尤为宝贵[636, 676]。

专门的优化技术通过上下文感知和责任调优显著减少Token消耗，动态上下文优化采用精确的Token级内容选择，以及长上下文推理的注意力引导机制进一步提升效率[430, 952, 354]。这些方法在减少处理开销的同时最大化信息密度并保持性能质量[952, 354]。

3.2.4. 未来潜力

上下文工程通过在上下文学习支持模型无需显式重新训练即可适应新任务的灵活适应机制，上下文窗口大小直接影响任务适应的可用示例数量[623]。高级技术整合压缩和选择机制以实现高效模型编辑，同时保持上下文连贯性[625]。这种适应性在低资源场景中尤为宝贵，支持跨零样本、少样本示例和角色上下文的多种提示工程技术，无需特定领域的微调[932, 129, 1083]。

包括在上下文学习、思考链、思维树和规划方法在内的高级上下文工程技术，为细腻的语言理解和生成能力奠定了基础，同时优化检索和生成过程以实现稳健、上下文感知的AI应用[803, 982]。

未来研究方向表明，通过结合逻辑对比机制的思考链增强[961]、在代码智能任务中更好地利用不同上下文类型（结合语法、语义、执行流和文档）[1102]，以及随着高级语言模型继续展示提示工程的持久价值，理解最优上下文利用策略具有巨大潜力[1087]。向高级过滤和选择机制的演进代表了解决Transformer架构扩展限制的关键路径，同时保持性能质量。

4. 基础组件

上下文工程建立在三个基本组件之上，共同应对大型语言模型信息管理的核心挑战：上下文检索与生成通过提示工程、外部知识检索和动态上下文组装获取适当的上下文信息；上下文处理通过长序列处理、自我优化机制和结构化数据整合转换和优化获取的信息；上下文管理通过应对基本约束、实现复杂内存层次结构和开发压缩技术，处理上下文信息的有效组织和利用。这些基础组件为所有上下文工程实现奠定了理论和实践基础，形成一个综合框架，其中每个组件处理上下文工程流程的不同方面，同时保持协同关系，支持全面的上下文优化和有效的上下文工程策略。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图3：上下文工程框架：上下文工程组件的全面分类，包括上下文检索和生成、上下文处理以及上下文管理，这些组件集成到系统实现中，如RAG系统、内存架构、工具集成推理以及多代理协调机制。

4.1. 上下文检索与生成

上下文检索与生成构成上下文工程的基础层，涵盖了为LLM系统性检索和构建相关信息的挑战。这一组件通过三种主要机制应对获取适当上下文信息的难题：基于提示的生成，构建有效的指令和推理框架；外部知识检索，访问动态信息源；动态上下文组装，将获取的组件编排为连贯、任务优化的上下文。

4.1.1. 提示工程与上下文生成

提示工程与上下文生成构成上下文检索的基础层，涵盖了结合艺术与科学的战略输入设计，为LLM构建有效指令。CLEAR框架——简洁性（conciseness）、逻辑性（logic）、明确性（explicitness）、适应性（adaptability）和反思性（reflectiveness）——指导有效提示构建，其核心架构整合了任务指令、上下文信息、输入数据和输出指示[708, 1142, 575, 213, 25]。

零样本与少样本学习范式

零样本提示（Zero-shot prompting）支持在无先前示例的情况下执行任务，仅依赖指令清晰度和预训练知识[1371, 340, 559, 67, 1054]。少样本提示（Few-shot prompting）通过纳入有限的示例指导模型响应，通过战略示例选择展示任务执行[1371, 405, 103, 552, 794, 1381]。在上下文学习（In-context learning）通过在提示中利用演示示例支持无需参数更新的新任务适应，性能显著受示例选择和排序策略的影响[369, 103, 1296, 1024, 928, 852, 1148, 352, 582]。

思考链基础

思考链（Chain-of-Thought，CoT）提示将复杂问题分解为中间推理步骤，模仿人类认知[1147, 405, 340, 947, 609]。零样本CoT使用触发短语如“让我们一步步思考”，将MultiArith准确率从17.7%提升至78.7%[559, 1107, 478, 668]，通过自动提示工程师（Automatic Prompt Engineer）优化进一步提升性能[1224, 532]。思维树（Tree-of-Thoughts，ToT）将推理组织为具有探索、前瞻和回溯能力的层次结构，Game of 24成功率从4%提升至74%[1255, 221, 563, 604]。思维图（Graph-of-Thoughts，GoT）将推理建模为任意图，思想作为顶点，依赖关系作为边，与ToT相比质量提高62%，成本降低31%[69, 832, 1376]。

认知架构整合

认知提示（Cognitive prompting）实现结构化的人类式操作，包括目标澄清、分解、过滤、抽象和模式识别，通过确定性、自适应和混合变体支持系统性多步任务解决[564, 563, 1214, 1173]。吉尔福德（Guilford）的智能结构模型为分类认知操作（如模式识别、记忆检索和评估）提供了心理学基础，增强推理的清晰度、连贯性和适应性[562, 195]。高级实现通过结构化认知操作序列将认知工具作为模块化推理操作，GPT-4.1在AIME2024上的性能从26.7%提升至43.3%[247, 1038]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表2：大型语言模型中的自优化方法及其关键特征。

4.1.2. 外部知识检索

外部知识检索是上下文检索的关键组件，通过动态访问包括数据库、知识图谱和文档集合在内的外部信息源，解决参数化知识的根本局限性。

检索增强生成基础

检索增强生成（RAG）结合存储在模型参数中的参数化知识和从外部源检索的非参数化信息，支持访问当前、特定领域的知识，同时保持参数效率[597, 315, 257]。FlashRAG提供RAG系统的全面评估和模块化实现，而KRAGEN和ComposeRAG等框架展示高级检索策略，在多样化基准上实现显著性能提升[506, 755, 1168]。Self-RAG引入自适应检索机制，模型动态决定何时检索信息并生成特殊Token控制检索时机和质量评估[41]。高级实现包括用于层次文档处理的RAPTOR、基于内存启发的HippoRAG以及利用结构化知识表示的图增强RAG系统以改进信息访问[936, 370, 364]。

知识图谱整合与结构化检索

知识图谱整合通过如KAPING的框架解决结构化信息检索，根据语义相似性检索相关事实并将其前置于提示中，无需模型训练[48, 679]。KARPA通过预规划、语义匹配和关系路径推理实现无需训练的知识图谱适应，在知识图谱问答任务上达到最先进性能[262]。Think-on-Graph支持在知识图谱上进行顺序推理以定位相关三元组，执行探索以从外部数据库检索相关信息，同时生成多条推理路径[1008, 726]。StructGPT实现迭代的先阅读后推理方法，构建专门功能以从结构化数据源收集相关证据[495]。

代理式与模块化检索系统

代理式RAG系统将检索视为动态操作，其中AI代理作为智能调查者分析内容并交叉引用信息[654, 166, 973]。这些系统整合了复杂规划和反思机制，要求整合任务分解、多计划选择和迭代优化能力[444, 1192]。

模块化RAG架构通过标准化接口和即插即用设计支持检索组件的灵活组合。图增强RAG系统利用结构化知识表示改进信息访问，而实时RAG实现应对流式应用的动态信息需求[316, 1401]。

4.1.3. 动态上下文组装

动态上下文组装代表将获取的信息组件编排为连贯、任务优化的上下文的高级操作，以最大化语言模型性能，同时尊重计算约束。

组装函数与编排机制

组装函数A包括基于模板的格式化、基于优先级的选择和自适应组合策略，必须适应不同任务需求、模型能力和资源约束[708, 1142, 575]。当代编排机制管理多代理系统中的代理选择、上下文分配和交互流程控制，通过用户输入处理、上下文分配和基于能力评估的最优代理选择支持有效协作[902, 53, 175]。

高级编排框架整合意图识别、上下文内存维护和任务分配组件，以实现跨特定领域代理的智能协调。Swarm Agent框架利用实时输出指导工具调用，同时解决静态工具注册表和定制通信框架的局限性[814, 267, 250]。

多组件整合策略

上下文组装必须应对跨模态整合挑战，整合包括文本、结构化知识、时间序列和外部工具接口在内的多样化数据类型，同时保持连贯的语义关系[535, 1230, 502]。语言化技术（Verbalization techniques）将包括知识图谱三元组、表格行和数据库记录在内的结构化数据转换为自然语言句子，支持与现有语言系统的无缝整合，无需架构修改[12, 788, 1072, 13]。

结构化数据的编程语言表示，特别是知识图谱的Python实现和数据库的SQL，在复杂推理任务中优于传统自然语言表示，通过利用固有的结构属性[1175]。多级结构化方法根据语言关系将输入文本重组为分层结构，而结构化数据表示利用现有LLM提取结构化信息，并将关键元素表示为图、表格或关系模式[687, 1134, 1334]。

自动化组装优化

自动提示工程通过系统性提示生成和优化算法解决手动优化的局限性。自动提示工程师（Automatic Prompt Engineer，APE）采用搜索算法发现最优提示，而LM-BFF引入结合基于提示的微调和动态演示整合的自动化管道，在NLP任务中实现高达30%的绝对改进[311, 421, 596]。Promptbreeder实现自参照进化系统，其中LLM通过自然选择类比改进任务提示和控制这些改进的变异提示[279, 514]。

自我优化（Self-refine）通过自我批评和多轮迭代修订支持输出改进，GPT-4通过此方法实现约20%的绝对性能提升[741, 676]。多代理协作框架模拟专门团队动态，代理承担不同角色（分析师、编码者、测试者），与单代理方法相比，Pass@1指标实现29.9-47.1%的相对改进[440, 1266]。

工具整合框架结合思考链推理与外部工具执行，自动生成作为可执行程序的中间推理步骤，战略性地整合外部数据。LangChain为顺序处理链、代理开发和Web浏览能力提供全面框架支持，而Auto-GPT和Microsoft的AutoGen等专门框架通过用户友好界面支持复杂AI代理开发[971, 1095, 25, 875]。

4.2. 上下文处理

上下文处理聚焦于转换和优化获取的上下文信息，以最大化其对LLM的效用。这一组件应对处理超长序列上下文的挑战，支持迭代自我优化和适应机制，并促进多模态、关系和结构化信息整合为连贯的上下文表示。

4.2.1. 长上下文处理

超长序列上下文处理应对Transformer自注意力O(n²)复杂度的基本计算挑战，随着序列长度增加形成显著瓶颈，显著影响现实世界应用[1067, 737, 299, 272, 420]。将Mistral-7B输入从4K增加到128K Token需要122倍的计算量增加，而预填充和解码阶段的内存约束对资源需求构成重大挑战，Llama 3.1 8B在128K Token请求中需要高达16GB[1040, 1236, 429]。

长上下文的架构创新

状态空间模型（State Space Models，SSMs）通过固定大小的隐藏状态保持线性计算复杂度和恒定内存需求，Mamba等模型提供比传统Transformer更高效的递归计算机制[1267, 351, 350]。稀释注意力方法如LongNet采用随Token距离增长的指数扩展注意力场，实现线性计算复杂度和对数依赖性，支持处理超过10亿Token的序列[220]。

Toeplitz神经网络（Toeplitz Neural Networks，TNNs）通过相对位置编码的Toeplitz矩阵建模序列，将时空复杂度降至对数线性，支持从512训练Token扩展到14,000推理Token[876, 877]。线性注意力机制通过将自注意力表示为内核特征图的线性点积，将复杂度从O(N²)降至O(N)，在处理超长序列时实现高达4000倍的加速[528]。非注意力LLM通过递归内存Transformer等架构创新打破平方障碍[553]。

位置插值与上下文扩展

位置插值技术通过智能重扩展位置索引而非外推到未见位置，支持模型处理超出原始上下文窗口限制的序列[153]。神经正切核（Neural Tangent Kernel，NTK）方法为上下文扩展提供数学基础，YaRN结合NTK插值、线性插值和注意力分布校正[839, 477, 1029]。

LongRoPE通过两阶段方法实现2048K Token上下文窗口：首先将模型微调至256K长度，然后进行位置插值以达到最大上下文长度[222]。位置序列调优（Position Sequence Tuning，PoSE）通过结合多种位置插值策略展示高达128K Token的序列长度扩展[1387]。自我扩展（Self-Extend）技术通过双级注意力策略——分组注意力和邻居注意力——捕获远距离和邻近Token的依赖性，支持LLM无需微调即可处理长上下文[505]。

高效处理优化技术

分组查询注意力（Grouped-Query Attention，GQA）将查询头分区为共享键和值头的组，在多查询注意力和多头注意力之间取得平衡，同时降低解码期间的内存需求[16, 1351]。FlashAttention利用GPU内存层次结构的不对称性实现线性内存扩展而非平方需求，FlashAttention-2通过减少非矩阵乘法操作和优化工作分配提供约两倍速度[200, 199]。

环形注意力（Ring Attention）与块式Transformer支持通过跨多设备分布计算处理极长序列，利用块式计算同时重叠通信与注意力计算[682]。稀疏注意力技术包括LongLoRA中的移位稀疏注意力（Shifted sparse attention，S2-Attn）和SinkLoRA中的SF-Attn，以92%的全注意力困惑度改进实现显著的计算节省[1313, 1226]。

高效选择注意力（Efficient Selective Attention，ESA）通过查询和键向量压缩为低维表示提出Token级关键信息选择，支持处理高达256K Token的序列[1092]。BigBird结合局部注意力与全局Token（对整个序列进行注意力计算）以及随机连接，支持处理比之前长8倍的序列[1294]。

内存管理与上下文压缩

内存管理策略包括滚动缓冲缓存（Rolling Buffer Cache）技术，保持固定注意力跨度，在32K Token序列上减少约8倍的缓存内存使用[1351]。StreamingLLM通过保留关键“注意力汇聚（attention sink）”Token和最近的KV缓存条目，支持无需微调即可处理无限长序列，在高达400万Token的序列上展示高达22.2倍的加速[1185]。

无限注意力（Infini-attention）将压缩内存整合到普通注意力中，结合屏蔽局部注意力和长期线性注意力于单一Transformer块，支持处理无限长输入，同时保持有界内存和计算[798]。重击者预言（Heavy Hitter Oracle，H2O）基于少量Token贡献大部分注意力值的观察，提出高效的KV缓存驱逐策略，吞吐量提高高达29倍，延迟降低高达1.9倍[1343]。

上下文压缩技术如QwenLong-CPRS实现动态上下文优化机制，通过自然语言指令指导多粒度压缩[952]。InfLLM将远距离上下文存储在额外内存单元中，并采用高效机制检索与Token相关的单元进行注意力计算，支持预训练于数千Token序列的模型有效处理高达1024K Token的序列[1184]。

4.2.2. 上下文自我优化与适应

自我优化（Self-refinement）通过循环反馈机制支持LLM改进输出，模仿人类修订过程，通过提示工程实现对话式自我交互，区别于强化学习方法[741, 924, 25, 1220]。

基础自我优化框架

Self-Refine框架使用同一模型作为生成器、反馈提供者和优化器，证明识别和修复错误通常比生成完美初始解决方案更容易[741, 1322, 231]。Reflexion通过语言反馈在情景记忆缓冲区中维护反思文本以支持未来决策[964]，结构化指导至关重要，因为简单提示通常无法实现可靠的自我纠正[678, 593]。

多方面反馈（Multi-Aspect Feedback）整合冻结语言模型和外部工具，聚焦特定错误类别以实现更全面、独立的评估[805]。N-CRITICS框架实现基于集合的评估，初始输出由生成LLM和其他模型评估，编译的反馈指导优化直至满足任务特定停止标准[795]。

A2R框架采用跨多个维度的显式评估，包括正确性和引用质量，为每个方面制定自然语言反馈并迭代优化输出[583]。ISR-LLM通过将自然语言翻译为形式规范、创建初始计划并通过验证器系统性优化来改进基于LLM的规划[1383]。

元学习与自主进化

SELF通过有限示例教授LLM元技能（自我反馈、自我优化），然后通过生成和过滤自身训练数据持续自我进化[710]。自我奖励机制（Self-rewarding mechanisms）支持模型通过迭代自我判断自主改进，单一模型同时扮演执行者和评判者角色，最大化其分配的奖励[1172, 1287]。

Creator框架通过包括创建、决策、执行和识别的四模块过程，扩展了这一范式，支持LLM创建和使用自己的工具[954, 862]。自我发展（Self-Developing）框架代表最自主的方法，支持LLM通过迭代生成可执行代码的算法候选，发现、实现和优化自己的改进算法[472]。

在上下文学习本质上是一种元学习形式，模型在预训练期间学习可泛化到多样化任务的优化策略，支持推理期间快速适应新挑战[183, 1174]。元在上下文学习（Meta-in-context learning）展示在上下文学习能力可通过在上下文学习本身递归改进，自适应重塑模型对预期任务的先验并修改在上下文学习策略[181]。

内存增强适应框架

内存增强通过如Memory of Amortized Contexts的框架实现元学习，通过特征提取和内存增强将新文档信息压缩为存储在内存库中的紧凑调制[1019]。上下文感知元学习损失扩展（Context-aware Meta-learned Loss Scaling）通过元训练小型自回归模型动态重新加权每个Token的语言模型损失，应对过时知识挑战[436]。

决策预训练Transformer展示Transformer如何训练执行在上下文强化学习，解决预训练分布之外的未见RL问题[1021, 588]。基于上下文的元强化学习方法通过直接监督上下文编码器提升性能，相比端到端训练方法提高样本效率[1080]。

长思考链与高级推理

长思考链（Long Chain-of-Thought）已成为显著的进化特征，通过大幅延长推理轨迹支持彻底问题探索，如在OpenAI-o1、DeepSeek-R1、QwQ和Gemini 2.0 Flash Thinking等高级模型中实现[148, 724, 1223]。LongCoT有效性似乎与上下文窗口容量相关，实证证据表明更大的上下文窗口通常带来更强的推理性能[1238]。

扩展推理支持自我反思和错误纠正机制，允许模型在问题解决过程中识别和纠正错误[1344]。即使不添加新信息，增加推理步长也能显著增强推理能力，通过测试时扩展跨多个数据集提升性能[1355]。

优化策略通过最佳N采样自生成较短推理路径、自适应推理模式（包括ZeroThinking和Less-Thinking方法）以及显式紧凑CoT方法应对冗长推理轨迹的计算低效，减少Token使用同时保持推理质量[797, 1358, 703]。自动长短推理（Auto Long-Short Reasoning）根据问题复杂性动态调整推理路径长度，帮助模型决定何时需要更长的推理链[721]。

4.2.3. 多模态上下文

多模态大型语言模型（Multimodal Large Language Models，MLLMs）通过整合包括视觉、音频和3D环境在内的多样化数据模态，将上下文工程扩展到超越文本。这一扩展引入了模态融合、跨模态推理和长上下文处理的新挑战，同时支持利用丰富多模态上下文理解的复杂应用。

多模态上下文整合

基础技术

多模态MLLMs通过整合视觉、音频和3D环境等多样化模态数据扩展传统LLM[105, 49, 965]。主要整合方法将视觉输入转换为离散Token，与文本Token连接，条件化LLM的生成过程于组合表示[1295]。这通常通过在图像-标题对上训练的视觉提示生成器（Visual Prompt Generators，VPGs）实现，将视觉特征映射到LLM的嵌入空间[613]。主导架构范式通过对齐模块（如Q-Former或简单MLP）将专门的多模态编码器（如CLIP用于视觉或CLAP用于音频）连接到LLM骨干，支持独立编码器更新无需重新训练整个模型[19, 86, 615, 1139, 624]。

高级整合策略

更复杂的方法支持更深层次的模态融合。跨模态注意力机制直接在LLM的嵌入空间内学习文本和视觉Token之间的细粒度依赖性，增强图像编辑等任务的语义理解[570, 909, 102]。为管理冗长输入，层次设计分阶段处理模态以确保可扩展性[158]，而“浏览与聚焦（browse-and-concentrate）”范式在LLM摄取前融合多图像上下文，克服孤立处理的局限性[1143]。一些研究绕过仅文本LLM的适应，选择从一开始联合预训练多模态数据和文本语料的统一训练范式以缓解对齐挑战[1391, 1233]。其他方法利用文本作为通用语义空间，使用LLM在上下文学习提升跨多样模态组合的泛化能力[1058]。对于视频，上下文整合技术从提示调优到基于适配器的方法，将视频内容转换为用于推理的序列[1088]。这些模型的开发通常受限于对高质量多模态数据和显著计算资源的需求[1304, 615, 215]。

多模态上下文处理的核心挑战

模态偏差与推理缺陷

MLLM发展的主要障碍是模态偏差，模型偏好文本输入，生成看似合理但多模态无依据的响应，依赖于学习的语言模式而非整合的视觉或听觉信息[1368, 24, 319, 1335]。这一问题因训练方法而加剧；例如，在简单图像-标题任务上训练的VPGs仅提取用于标题的显著特征，忽略对更复杂、基于指令的任务至关重要的其他视觉细节，从根本上限制了深层多模态理解[613, 510]。因此，MLLMs经常在细粒度空间或时间推理（如精确对象定位或视频中详细事件序列理解）上表现挣扎[1039, 965]，特别是在社交媒体等复杂领域，解释文本和图像的相互作用以理解错误信息或讽刺较为困难[511]。有效的多模态推理不仅需要理解每个模态，还需推断它们的综合整体意义[389]。这些问题的复杂性因我们对MLLMs内部机制的有限理解而加剧，其内部运作在很大程度上仍是一个黑盒，阻碍了更好架构的开发[1283]。

高级上下文能力与未来方向

在上下文与长上下文学习

MLLMs的一个关键能力是在上下文学习，模型通过提示中的多模态示例适应新任务而无需权重更新[1407, 1408, 557]。链接上下文学习（Link-context learning，LCL）通过提供具有明确因果链接的演示增强泛化能力[1020]。然而，在上下文学习受限于固定上下文窗口，图像Token占用大量空间，限制多样本学习[443]。性能还对输入顺序敏感，各模态的相对重要性因任务而异[1028, 1206]。处理长多模态上下文，如视频分析所需，仍是主要研究前沿[1094]。创新包括视频的自适应层次Token压缩[1128]、可变视觉位置编码（V2PE）[1391]、用于对话内存的专门模块如ContextQFormer[595]，以及视频的动态、查询感知帧选择[587]。MLLMs还在扩展交互中展示出新兴的通信效率，这一现象仍在研究中[442]。

新兴应用

处理丰富多模态上下文的能力正在开启新应用。MLLMs用于预测推理，如从视觉场景预测人类活动[1392]，并在各种多模态基准上展示出令人印象深刻的感知和认知能力[294]。在视觉问答（VQA）中，上下文被用于更精确的答案，例如通过提示MLLM生成图像的描述性文本上下文[1356]或通过RAG整合外部知识[1001, 105]。其他应用包括基于感官输入规划数字行动[611]、通过内存增强上下文理解增强手术决策支持[422]，以及通过整合视觉信息与语音和音频线索实现细腻的视频理解[648, 1202, 7]。研究人员还将MLLMs扩展到新兴模态，如触觉信息、事件数据和图结构[1368, 1031, 1222]。这些现实世界用例的日益重要性推动了评估上下文理解的全面框架开发[1118]。这些进步支持了文本仅模型无法实现的应用，如图像标题和复杂多模态推理[1182, 683, 139]。

4.2.4. 关系与结构化上下文

大型语言模型在处理包括表格、数据库和知识图谱在内的关系和结构化数据时面临基本约束，因其基于文本的输入要求和顺序架构局限性[495, 47, 1145]。线性化往往无法保留复杂关系和结构属性，当信息分散在上下文中时性能下降[592, 591, 946]。

知识图谱嵌入与神经整合

高级编码策略通过知识图谱嵌入解决结构局限性，将实体和关系转换为数值向量，支持在语言模型架构内高效处理[12, 1259, 938, 1203]。图神经网络（Graph Neural Networks）捕获实体间的复杂关系，通过如GraphFormers的专门架构（在Transformer块旁嵌套GNN组件）支持多跳推理[982, 408, 1230, 489]。

GraphToken通过显式表示结构信息实现显著改进，在图推理任务上实现高达73个百分点的增强，通过参数高效的编码函数[842]。Heterformer和其他混合GNN-LM架构在统一模型中执行上下文化文本编码和异构结构编码，应对这些集成系统扩展的计算挑战[502, 471, 757]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表3：用于增强大型语言模型推理的知识图谱集成方法。

语言化与结构化数据表示

语言化技术将包括知识图谱三元组、表格行和数据库记录在内的结构化数据转换为自然语言句子，支持与现有语言系统的无缝整合，无需架构修改[12, 788, 1072, 13]。多级结构化方法根据语言关系将输入文本重组为分层结构，而结构化数据表示利用现有LLM提取结构化信息，并将关键元素表示为图、表格或关系模式[687, 1134, 1334, 1043, 608]。

结构化数据的编程语言表示，特别是知识图谱的Python实现和数据库的SQL，在复杂推理任务中优于传统自然语言表示，通过利用固有的结构属性[1175]。使用结构化矩阵表示的资源高效方法为在结构化数据任务上减少参数计数同时保持性能提供了有前景的方向[347]。

整合框架与协同方法

知识图谱与语言模型的整合遵循不同的范式，特征为不同的实现策略和性能权衡[823, 1149]。预训练整合方法如K-BERT在训练期间注入知识图谱三元组以内化事实知识，而推理时方法支持无需完全模型重新训练的实时知识访问[696, 1246, 718]。

知识图谱增强的LLM通过如KAPING的检索增强方法整合结构化知识以改进事实依据，根据语义相似性检索相关事实并将其前置于提示中，无需模型训练[48, 679, 597]。更复杂的实现通过适配器模块和跨注意力机制将知识图谱衍生的表示直接嵌入模型潜在空间，Text2Graph映射器提供输入文本与知识图谱嵌入空间之间的链接[132, 1074, 432]。

协同方法创建统一系统，其中两种技术均发挥同等重要作用，通过数据和知识驱动的双向推理应对基本局限性[823, 859, 1120]。GreaseLM通过所有模型层支持深层交互，允许语言上下文表示通过结构化世界知识 grounding，同时语言细微差别为图表示提供信息[1330]。QA-GNN通过联合图形成和基于图的消息传递实现连接问答上下文和知识图谱的双向注意力机制[1259, 982]。

应用与性能增强

结构化数据整合显著增强LLM的多维度能力，知识图谱提供结构化信息，通过在可验证事实中 grounding 响应减少幻觉，并通过明确定义的信息源提高事实准确性[1010, 1352, 204, 571]。知识图谱通过提供结构化实体关系增强推理能力，支持复杂多跳推理和逻辑推断，其丰富的层次知识库显著提高推断的精确性和可靠性[1175, 212, 1026]。

现实世界应用在特定领域展示显著改进。医疗系统通过检索增强生成框架结合结构化医学知识和上下文理解，改进疾病进展建模和临床决策[848, 589]。科学研究平台将发现组织为结构化知识，支持假设生成和研究差距识别，而商业分析系统平衡基于规则的精确性与AI模式识别，提供更可操作的见解[1336, 1070]。

问答系统通过结构化数据源上的自然语言接口受益，整合创建更稳健的系统，支持处理多模态查询并提供超越静态知识库限制的个性化响应[1326, 1125, 922, 1215]。研究表明，结构化知识表示可将公共数据集上的摘要性能提高40%和14%，与非结构化内存方法相比，Chain-of-Key策略通过动态结构化内存更新提供额外性能提升[465]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表4：大型语言模型中结构化数据集成方法的代表性方法。

4.3. 上下文管理

上下文管理解决LLM内上下文信息的有效组织、存储和利用。这一组件应对由有限上下文窗口大小引起的基本约束，开发复杂的内存层次结构和存储架构，并实现压缩技术以最大化信息密度，同时保持可访问性和连贯性。

4.3.1. 基本约束

LLM面临由大多数架构固有的有限上下文窗口大小引起的基本约束，显著降低模型在需要深入理解冗长文档的任务上的效能，同时施加显著的计算需求，阻碍需要快速响应和高吞吐量（high capacity）的应用[1082]。虽然扩展上下文窗口支持模型处理整个文档并捕获更长范围的依赖性，传统Transformer架构随着序列长度增加经历平方计算复杂度增长，使处理极长文本的计算开销较大（expensive）[1007]。尽管如LongNet的创新方法已将此复杂度降至线性，平衡窗口大小和泛化能力仍具挑战性[1007, 220]。

实证证据揭示了“中间丢失（lost-in-the-middle）”现象，LLM在访问长上下文中间部分的信息时表现挣扎，当相关信息出现在输入开头或结尾时性能显著更好[128, 691, 654]。这种位置偏差严重影响扩展思考链推理任务的性能，关键早期结果易被遗忘，与无先前上下文的性能相比下降高达73%[128, 1147, 381]。

LLM固有地独立处理每次交互，缺乏跨顺序交换维护状态和稳健自我验证机制的原生机制，这些约束源于哥德尔不完备定理识别的基本限制[128, 372]。这种基本的无状态性需要显式管理系统以维护连贯操作序列并确保稳健的故障恢复机制[128]。上下文管理面临上下文窗口溢出（context window overflow，模型因超过窗口限制而“遗忘”先前上下文）和上下文崩溃（context collapse，扩大上下文窗口或对话内存导致模型无法区分不同对话上下文）的对立挑战[993]。研究表明，思考链提示的声称益处并非源于真正的算法学习，而是依赖于特定问题的提示，随着问题复杂性增加，益处恶化[992]。长上下文处理的计算开销在管理随输入长度显著增长的键值缓存时产生额外挑战，造成延迟和准确性的瓶颈，而多轮和纵向交互挑战进一步复杂化上下文管理，因为有限的有效上下文阻碍纵向知识积累，许多样本提示的Token需求限制系统和用户输入可用空间，同时减慢推理速度[919, 725, 393]。

4.3.2. 内存层次结构与存储架构

现代LLM内存架构采用复杂的分层设计，组织为方法论方法以克服固定上下文窗口限制。受操作系统启发的分层内存系统实现虚拟内存管理概念，MemGPT通过在有限上下文窗口（主内存）和外部存储之间分页信息，体现了这一方法[819]。这些架构包括包含系统指令、FIFO消息队列和可写便笺簿的主上下文，以及通过显式函数调用访问信息的外部上下文，通过函数调用能力实现自主分页决策[837]。PagedAttention受操作系统中的虚拟内存和分页技术启发，管理LLM中的键值缓存内存[57]。

动态内存组织基于认知原则实现创新系统，MemoryBank使用艾宾浩斯遗忘曲线理论，根据时间和重要性动态调整内存强度[1211, 1372]。ReadAgent采用情景分页分割内容、内存概述创建简洁表示以及交互式查找进行信息检索[1211]。压缩-检索器（Compressor-retriever）架构通过使用基础模型前向函数压缩和检索上下文，支持终身上下文管理，确保端到端可微性[1245]。

架构适应通过包括增强注意力机制、优化键值缓存机制和修改位置编码在内的内部修改增强模型内存能力[164, 1362]。知识组织方法将内存结构化为互连（interconnect）的语义网络，支持自适应管理和灵活检索，而面向检索机制的方法整合语义检索与内存遗忘机制[521, 1372, 450]。

系统配置通过组织方法平衡效率和可扩展性，集中式系统高效协调任务但随着主题增加面临可扩展性挑战，导致上下文溢出，而去中心化系统减少上下文溢出但因代理间查询增加响应时间[400]。混合方法平衡共享知识与专门处理，支持半自主操作，应对在计算效率与上下文保真度之间平衡的挑战，同时缓解因过去交互过度存储导致检索低效的内存饱和问题[164, 400]。上下文管理器组件为快照创建、中间生成状态恢复和整体上下文窗口管理提供基本能力[763]。

4.3.3. 上下文压缩

上下文压缩技术支持LLM高效处理更长上下文，通过减少计算和内存负担同时保留关键信息。基于自编码器的压缩通过在上下文自编码器（In-context Autoencoder，ICAE）实现显著的上下文减少，将长上下文压缩为紧凑的内存槽，LLM可直接条件于其上，显著增强模型处理扩展上下文的能力，同时改善推理期间的延迟和内存使用[321]。递归上下文压缩（Recurrent Context Compression，RCC）在受限存储空间内高效扩展上下文窗口长度，通过实现指令重构技术应对指令和上下文均被压缩时模型响应较差的挑战[447]。

内存增强方法通过基于kNN的内存缓存增强上下文管理，存储过去输入的键值对以供后续查找，通过基于检索的机制改进语言建模能力[397]。对比学习方法增强内存检索准确性，侧网络应对无需LLM微调的内存陈旧问题，合并表示方法动态更新过去Token表示，支持任意大上下文窗口而无需受固定内存槽限制[397]。

分层缓存系统实现复杂多层方法，激活填充（Activation Refilling，ACRE）采用双层KV缓存，其中第一层缓存紧凑捕获全局信息，第二层缓存提供详细局部信息，通过从第二层缓存动态填充查询相关的条目到第一层缓存，整合广泛理解与具体细节[865]。Infinite-LLM通过分布式注意力（DistAttention）分布跨GPU集群的注意力计算、跨实例借用内存的负债机制和全局规划协调，应对动态上下文长度管理[943]。KCache通过将K缓存存储在高带宽内存中而V缓存存储在CPU内存中，优化推理，根据注意力计算选择性复制关键信息[943]。

多代理分布式处理代表一种新兴方法，使用基于LLM的多代理方法以分布式方式处理大量输入，应对处理广泛外部知识时的知识同步和推理过程中的核心瓶颈[705]。对现实世界键值缓存访问模式的分析揭示了如RAG和代理等工作中高缓存可重用性，突出对高效分布式缓存系统的需求，优化元数据管理以减少冗余并提高速度[1399]。这些压缩技术可与其他长上下文建模方法结合，进一步增强LLM处理和利用扩展上下文的能力，同时减少计算开销并保持信息完整性[321]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表5：大型语言模型中的长链推理方法及其特征。O1-Pruner使用强化学习风格的微调来缩短推理链，同时保持准确性。InftyThink采用迭代推理结合中间摘要来降低计算复杂性。Long-CoT综述探讨了长思考链特征，这些特征通过效率改进和增强知识框架来提升推理能力。PREMISE使用梯度启发优化对提示进行优化，并利用跟踪级诊断实现了87.5%的token减少。Prune-on-Logic通过选择性移除低效推理步骤对逻辑图进行结构感知剪枝。

4.3.4. 应用

有效的上下文管理将LLM能力扩展到超越简单问答，支持利用跨多领域的综合上下文理解的复杂应用。文档处理和分析能力支持LLM处理整个文档或理解完整文章而非片段，通过对输入材料的全面理解生成上下文相关的响应，这对基因序列、法律文档和技术文献等固有长序列数据尤为宝贵，保持跨广泛内容的连贯性至关重要[1007]。

通过上下文管理技术支持的扩展推理能力支持需要跨扩展序列维护和构建中间结果的复杂推理。通过捕获更长范围的依赖性，这些系统支持多步问题解决，其中后续推理依赖于早期计算或推导，支持需要广泛上下文感知的复杂应用，如复杂决策支持系统和科学研究协助[1007, 164]。

协作和多代理系统受益于多轮对话或顺序任务中的有效上下文管理，其中维护一致状态和协作模型间同步内部信息至关重要[157]。这些能力支持包括分布式任务处理、协作内容创建和多代理问题解决的应用，其中必须保持跨多交互的上下文连贯性[157]。

增强的对话接口利用稳健的上下文管理无缝处理广泛对话而不丢失线程连贯性，支持更自然、持续的对话，接近人类对话[891]。面向任务的LLM系统受益于结构化上下文管理方法，滑动窗口存储实现最小上下文管理系统，永久追加提示和响应到上下文存储，而检索增强生成系统通过访问外部动态信息源补充LLM[216, 934]。这些能力支持如个性化虚拟助手、长期辅导系统和治疗对话代理等应用，保持跨扩展交互的连续性[891]。

内存增强应用实现支持LLM持续存储、管理和动态检索相关上下文信息的策略，支持需要随时间知识积累的应用，通过持续交互构建个性化用户模型、实现跨扩展交互的有效知识管理和支持依赖历史上下文的长期规划场景[164]。如上下文感知智能内存（Contextually-Aware Intelligent Memory，CAIM）等高级内存框架通过整合认知AI原则的模块增强长期交互，支持用户特定信息的存储和检索，同时支持上下文和基于时间的相关性过滤[1152]。LLM代理的内存管理整合类比人类记忆再巩固的过程，包括去重、合并和冲突解决，如反思内存管理（Reflective Memory Management）结合前瞻和回顾反思以实现动态摘要和检索优化[1176, 386]。基于案例的推理系统为LLM代理内存提供理论基础，通过支持认知整合和持续上下文存储技术的架构组件实现更快提供必要上下文的缓存策略[387, 385]。这些益处超越处理更长文本，从根本上通过改进理解、更相关的响应和跨扩展交互的更大连续性显著增强LLM交互质量，显著扩展LLM的效用并解决受限上下文窗口的限制[891]。

5. 系统实现

基于上下文工程的基础组件，本节考察将这些组件集成到实际智能架构中的复杂系统实现。这些实现代表了从理论框架向可部署系统的演进，这些系统利用上下文工程原理。我们呈现了四大类系统实现。RAG系统通过模块化架构和图增强方法展示外部知识整合。内存系统通过复杂内存架构展示持续上下文管理，支持长期学习。工具集成推理通过函数调用和环境交互将语言模型转变为世界互动者。多代理系统通过通信协议和编排机制呈现协调方法。每种实现都建立在基础组件之上，同时应对上下文利用中的特定挑战，展示理论原理如何转化为实际系统。

5.1. 检索增强生成

检索增强生成（Retrieval-Augmented Generation，RAG）通过将外部知识源与语言模型生成整合，弥合参数化知识与动态信息访问之间的差距。这一实现支持模型通过模块化架构、代理式框架和图增强方法访问当前、特定领域的信息，超越静态训练数据。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图4：检索增强生成框架：RAG系统架构概述，包括模块化RAG、代理式RAG系统以及图增强RAG方法，用于外部上下文集成。

5.1.1. 模块化RAG架构

模块化RAG从线性检索-生成架构转向可重配置框架，支持组件的灵活交互[315, 1140, 597]。不同于Naive RAG和Advanced RAG的查询重写，模块化RAG引入层次架构：顶层RAG阶段、中层子模块和底层操作单元[316, 736]。这通过路由、调度和融合机制超越线性结构，支持动态重配置[316]。

形式表示RAG = R, G通过复杂模块排列运作，支持Rewrite-Retrieve-Read模型和Generate-Read方法，整合自适应搜索模块、用于多查询处理的RAGFusion、用于最优数据源选择的路由模块，以及应对检索准确性和上下文相关性的混合检索策略[315, 497, 916, 1053, 888, 95]。

当代框架在检索准确性和可信度上展示显著改进[1382]。FlashRAG提供模块化工具包，包含5个核心模块和16个子组件，支持独立调整和管道组合[506]。KRAGEN通过将知识图谱与向量数据库整合提升生物医学问题解决，利用生物医学知识图谱优化的提示生成应对复杂推理中的幻觉[401, 755, 981]。ComposeRAG实现用于问题分解和查询重写的原子模块，整合自我反思机制以支持迭代优化[1168]。这种模块化促进与微调和强化学习的整合，支持特定应用的定制化和多样化NLP任务的综合工具包[316, 920, 4]。

5.1.2. 代理式RAG系统

代理式RAG将自治AI代理嵌入RAG管道，支持动态、上下文敏感的操作，通过持续推理指导[973, 281]。这些系统利用反思、规划、工具使用和多代理协作动态管理检索策略，并适应复杂任务需求[973]。RAG和代理工作流通过查询重写对应语义理解，而检索阶段对应规划和执行[628]。

基于LLM的自治代理通过多模态感知、工具利用和外部内存整合扩展基本语言模型能力[1169, 1099, 939, 849]。外部长期内存作为知识数据存储，支持代理在扩展期内整合和访问信息[1169, 386]。不同于静态方法，代理式RAG将检索视为动态操作，其中代理作为智能调查者分析内容并交叉引用信息[654, 166]。

实现范式涵盖无需额外训练的基于提示的方法，以及通过强化学习优化模型以实现战略工具调用的基于训练的方法[654, 1327, 973]。高级系统支持LLM代理在单一工作流中查询向量数据库、访问SQL数据库或利用API，方法论进展聚焦于推理能力、工具整合、内存机制，以及用于自治决策的指令微调[709, 6]。

核心能力包括通过任务分解、多计划选择和内存增强规划策略的推理和规划组件，支持代理分解复杂任务并选择适当策略[444, 445]。PlanRAG通过先规划后检索方法改进决策，支持代理评估多个信息源并优化检索策略，而SLA管理框架应对可重配置的多代理架构[166, 467]。工具利用支持代理采用多样化资源，包括搜索引擎、计算器和API，ReAct和Reflexion等框架展示交织推理与行动如何增强适应性[166, 1169, 964]。内存机制提供外部长期存储，而自适应检索策略支持基于复杂性和上下文的自治分析[166, 1137]。

自我反思和适应机制通过基于先前交互结果的迭代反馈循环支持代理式RAG系统在动态环境中运作[1192, 692]。如MemoryBank等高级内存系统实现受艾宾浩斯遗忘曲线启发的更新机制，提升代理从过去交互中检索和应用学习的能力[1372, 169]。CDF-RAG采用闭环过程，结合因果图检索与强化学习驱动的查询优化和幻觉校正[537]。Self-RAG训练模型按需检索段落，同时反思检索和生成，使用反思Token在推理期间控制行为[243, 41]。

5.1.3. 图增强RAG

基于图的检索增强生成从面向文档的方法转向结构化知识表示，捕获实体关系、领域层次和语义连接[120, 1363, 364, 1401]。这支持提取特定推理路径，向语言模型提供相关信息，同时通过结构化路径导航支持多跳推理[120]。图结构通过利用互连性最小化上下文漂移和幻觉，以增强上下文感知检索和逻辑连贯性[518, 812]。

知识图谱作为基础表示，以结构化格式封装实体和相互关系，支持高效查询和语义关系捕获[166, 1066]。基于图的知识表示分类为基于知识的GraphRAG（使用图作为知识载体）、基于索引的GraphRAG（采用图作为索引工具），以及结合两者的混合GraphRAG[1208]。复杂实现包括GraphRAG的具有社区检测的层次索引、PIKE的多级异构知识图谱（将文档组织为三层层次），以及EMG-RAG的可编辑内存图架构[317]。

图神经网络通过应对处理结构化知识的局限性增强RAG系统，GNN擅长捕获实体关联并改进知识一致性[232, 116]。GNNRAG实现采用轻量级架构，用于有效知识图谱元素检索，在与语言模型接口前改进图结构捕获[1380, 166]。整合过程涵盖图构建（通过节点和边提取）、基于查询的检索，以及整合检索信息的生成[1380]。

多跳推理能力支持基于图的系统跨多个连接知识图谱节点合成信息，促进需要互联事实整合的复杂查询解决[1066, 170]。这些系统采用结构化表示，以非结构化文本无法实现的方式捕获实体间的语义关系和领域层次[1066, 170]。如Hierarchical Lexical Graph等高级框架在聚类主题以支持灵活检索的同时保留语句来源，并链接实体以支持基于图的遍历[333]。如GraphRAG、LightRAG及其衍生物等系统实现双级检索、层次索引和图增强策略，支持稳健的多级推理[1183, 317]。

突出的架构展示图增强检索的多样化方法，优化策略在检索有效性上展示显著改进[106]。LightRAG通过双级检索范式整合图结构与向量表示，提升信息发现，同时提升效率和内容质量[416, 723]。HippoRAG利用知识图谱上的个性化PageRank，在多跳问答中实现显著改进[1096, 752, 370]。HyperGraphRAG提出超越二元关系的超图结构化表示[723]。RAPTOR提供用于递归上下文生成的层次摘要树构建，而PathRAG引入用于基于图检索的修剪技术[1359, 936, 134]。这些结构化方法支持具有显式实体连接的透明推理路径，减少噪声并改进语义理解，同时克服传统RAG挑战[1183, 518]。

5.1.4. 应用

实时RAG系统应对生产环境中动态知识库需要持续更新和低延迟响应的关键挑战[1349, 534]。核心挑战包括高效部署和处理管道优化，现有的框架缺乏即插即用解决方案，需要系统级优化[1349]。流式数据的整合引入复杂性，因为传统架构在频繁变化的信息中展示较差准确性，并在文档量增长时效率下降[520]。

动态检索机制通过在生成期间持续更新策略，根据生成状态和识别的知识差距实时调整目标和语义向量空间，超越静态方法[388]。当前在确定最优检索时机和查询制定方面的局限性通过思考链推理、迭代检索过程、分解提示，以及用于动态检索的LLM生成内容得到解决，支持自适应信息选择，通过反射标签增强生成质量的自适应控制机制[1000, 536, 85, 539, 1248]。

低延迟检索方法利用图基方法，在速度-准确性优化中展示显著潜力，密集段落检索技术提供基础改进[525]。LightRAG的双级检索系统增强信息发现，同时整合图结构与向量表示以高效检索实体关系，减少响应时间同时保持相关性[364]。多阶段检索管道通过如基于图的重排序等技术优化计算效率，支持动态访问当前信息同时减少存储需求[982]。

可扩展性解决方案整合分布式处理架构，具有高效数据分区、查询优化和容错机制，适应变化的流条件[1048, 35]。通过转换的重击者流算法的内存优化智能过滤无关文档，同时保持质量，这在频繁变化的内容中尤为宝贵[520]。生产框架通过支持预检索过程（如查询扩展）和后检索优化（如压缩和选择）的模块化RAG架构展示效率提升，支持单个组件的微调[1077]。

增量索引和动态知识更新确保系统适应新信息而无需完全重新训练，这在如网络安全和气候金融应用等快速演进领域尤为关键[836, 1064]。现代框架整合动态知识检索方法，支持基于演进输入和上下文信息的持续策略调整，提升交互性和语义理解，同时增加跨领域整合的适用性[388]。高级基于代理的方法在复杂环境中展示复杂任务分配能力，如需要实时决策的协调UAV操作，应用扩展到具身代理的 grounded 规划[1324, 983]。动态检索增强生成框架如DRAGON-AI展示用于本体生成的专门实现，结合文本和逻辑组件，同时整合自我内存机制支持迭代改进[1051]。这些进展代表向在动态环境中无缝整合实时知识与灵活检索能力的显著演进。

5.2. 内存系统

内存系统通过实现持续信息存储、检索和利用机制，支持LLM超越无状态交互。这一实现将模型从模式匹配处理器转变为能够跨扩展交互进行学习、适应和长期上下文理解的复杂代理。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图5：内存系统框架：内存架构、内存增强代理以及LLM超长上下文处理的评估挑战概述。

5.2.1. 内存架构

内存将复杂语言系统与模式匹配模型区分开来，支持跨自然语言任务的信息处理、存储和利用[1191, 1176, 300]。尽管在文本生成和多轮对话方面取得突破，LLM仍面临显著的内存系统约束[1191]。神经内存机制在结构化信息存储和依赖近似向量相似性计算而非精确符号操作方面存在问题，对多跳推理的准确存储和检索构成挑战[427]。这些局限性代表了在复杂现实世界应用中有效运作的AI系统开发的关键挑战[550]。

内存分类框架

LLM内存系统可组织为多个分类框架。主要的时间分类将内存分为三类：感官内存（输入提示）、短期内存（即时上下文处理）和长期内存（外部数据库或专用结构）[943]。从持久性视角，短期内存包括仅存在于单一会话中的键值缓存和隐藏状态，而长期内存涵盖基于文本的存储和嵌入模型参数的知识，跨多交互周期持久[943, 824]。

基于实现的分类识别参数化内存（编码在模型权重中的知识）、短暂激活内存（上下文受限的运行时状态）和通过检索增强生成方法访问的纯文本内存[643]。当前实现缺乏复杂的生命周期管理和多模态整合，限制长期知识演进。前馈网络层作为存储内存的键值表，充当词检索的“内部词典”，创建类比人类联想内存的机制[524, 329, 330, 770, 470]。这些分类方案反映了开发平行人类认知系统的LLM内存架构的尝试[1176]。

短期内存机制

LLM中的短期内存通过上下文窗口运作，作为工作内存维护对先前处理Token的即时访问[1291]。这一功能通过存储Token表示的键值缓存实现，但在会话终止时消失[899]。架构变体展示显著差异：基于Transformer的模型实现工作内存系统，灵活检索跨任意延迟的单个Token表示，而LSTM架构维护较粗糙、快速衰减的语义表示，偏向最早项[40]。

现代LLM短期内存经常表现为在上下文学习，反映模型在上下文窗口内临时获取和处理信息的能力[1189, 103]。这支持无需参数更新的少样本学习和任务适应。研究识别三种主要内存配置：完整内存（利用整个上下文历史）、有限内存（使用上下文子集）和无内存操作（无历史上下文）[1052]。尽管将上下文窗口扩展到数百万Token的进展，LLM在扩展上下文的有效推理上仍存在问题，特别是当相关信息出现在中间位置时[899, 691]。

长期内存实现

LLM由于上下文窗口限制和灾难性遗忘面临维持长期内存的重大挑战[114]。基于外部内存的方法通过缓存历史信息解决这些局限性，支持在受限上下文窗口内缓存相关历史而无需维护所有信息[688, 1372]。这些方法与聚焦于减少自注意力计算成本以扩展序列长度的内部内存方法形成对比[688, 291]。

长期内存实现分类为知识组织方法（将内存结构化为互连的语义网络）、面向检索机制的方法（整合语义检索与遗忘曲线机制），以及架构驱动的方法（实现具有显式读写操作的层次结构）[521, 1372, 450]。内存存储表示可进一步分为Token级内存（信息作为结构化文本存储以直接检索）和潜在空间内存（利用高维向量进行抽象和紧凑信息表示）[1225, 1133]。高级方法整合心理学原理，MemoryBank实现受艾宾浩斯遗忘曲线启发的艾宾浩斯遗忘曲线理论，根据时间因素选择性保留内存[1372]，情绪感知框架采用情绪依赖内存理论[450]，以及平衡性能优势与隐私关注的记忆机制，通过提取漏洞分析[1049, 122, 123]。

内存访问模式和结构

LLM展示特征性内存访问模式，与人类认知过程有显著相似性，在回忆信息列表时展示明显的首因和近因效应[483]。内存检索通过顺序访问（按连续顺序检索内容）和随机访问（无需处理先前内容从任意点访问信息）运作[1397]。内存持久性研究采用识别实验、回忆实验和保留实验量化信息可访问持续时间和检索条件[816]，认知心理学概念如语义和情景内存的整合改进LLM信息合成能力[244]。

内存组织涵盖多样化结构方法，包括文本形式存储（完整和最近的代理-环境交互、检索历史交互、外部知识）、知识表示结构（块、知识三元组、原子事实、摘要、混合方法）、具有库增强推理组件的层次系统，以及按任务、时间相关性或语义关系组织的函数模式[1339, 1299, 1035]。核心内存操作包括编码（将文本信息转换为潜在空间嵌入）、检索（基于语义相关性、重要性和最近性的访问相关信息）、反思（提取更高层次见解）、摘要（突出关键点的文本浓缩）、利用（整合内存组件以统一输出）、遗忘（选择性信息丢弃）、截断（在Token限制内格式化）和判断（评估信息重要性以存储优先级）[1341]。这些结构在全面性、检索效率和计算需求之间提供不同权衡。

5.2.2. 内存增强代理

内存系统从根本上将LLM从无状态模式处理器转变为能够跨扩展交互进行持续学习和适应的复杂代理[1268]。内存增强代理利用短期内存（促进实时响应和即时上下文感知）和长期内存（支持扩展期的更深理解和知识应用），以适应变化环境、从经验中学习，并做出需要持续信息访问的知情决策[1268]。

代理架构整合

当代LLM代理采用类比计算机内存层次的内存系统，短期内存作为上下文窗口内上下文理解的主存储，而长期内存作为扩展信息保留的持久存储[776]。从面向对象视角，AI系统生成与单个用户相关的个人内存和包含中间任务结果的系统内存[1176]。如MemOS等结构化框架分类内存为参数化内存（编码在模型权重中的知识）、激活内存和纯文本内存，参数化内存代表嵌入前馈和注意力层内的长期知识，支持零样本生成[643]。

内存整合框架已演进到解决LLM局限性的复杂架构。自我控制内存（Self-Controlled Memory，SCM）框架采用基于LLM的代理骨干、内存流和内存控制器管理更新和利用[655]。REMEMBERER框架为LLM配备经验内存，利用跨任务目标的过去事件，支持无需参数微调的成功/失败学习，通过口头强化和自我反思反馈机制[1308]。如MemLLM等高级系统实现结构化读写内存模块，应对记忆稀有事件、更新信息和防止幻觉的挑战[785]。利用LLM的自治代理依赖四个基本组件——感知、内存、规划和行动——共同支持环境感知、交互回忆，以及实时规划和执行[620, 38]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表6：扩展自[1339]：内存实现模式。✓=采用，×=未采用。

现实世界应用

内存增强LLM代理在多样化应用领域展示变革性影响。在对话AI中，内存系统通过回忆过去经验和用户偏好支持更自然、类人类交互，提供个性化、上下文感知的响应。商业实现包括Charlie Mnemonic（结合长期、短期和情景内存，使用GPT-4）、Google Gemini（利用长期内存在Google生态中提供个性化体验）和ChatGPT Memory（跨会话记忆对话）[584]。用户模拟应用采用LLM驱动的对话代理模仿人类行为，以成本有效的对话系统评估，支持跨开放域对话、任务导向交互和对话推荐的灵活适应[208]，如Memory Sandbox等系统通过数据对象操作支持用户对对话内存的控制[461]。

面向任务的代理利用内存执行最小人类干预的复杂自治操作，使用LLM作为扩展通过多模态感知、工具利用和外部内存的控制器[1169]。应用跨越推荐系统（RecMind通过规划和外部知识提供个性化推荐，InteRecAgent采用LLM与推荐模型作为工具）、自治驾驶（DiLu通过推理、反思和内存注入类人类知识）、科学研究（ChemCrow自动化化学合成设计和执行）和社交模拟（生成代理通过内存存储和合成展示可信行为）[1027, 653, 92, 831]。主动对话代理通过基于提示的策略规划方法和基于对话历史的AI反馈生成，应对需要目标导向对话引导的战略对话场景[208, 207]。

个性化助手应用利用内存维持与用户的连贯长期关系，内存组件作为存储上下文相关信息的结构化存储库，包括用户偏好和历史交互[444]。特定领域实现包括医疗助手采用内存协调进行医疗交互[1325, 1316]、利用外部知识库的推荐代理[1325, 1302]、提供上下文感知支持的教育代理通过内存启用进展跟踪[653]，以及如MARK等专门框架通过用户偏好内存增强个性化AI助手[303]。

内存技术和整合方法

内存技术演进应对基本上下文窗口限制，通过RAG结合参数化和非参数化内存用于语言生成，使用预训练seq2seq模型和密集向量索引[1218, 597]。这一方法支持访问超出参数存储的信息而无需重新训练，显著扩展知识能力。高级内存机制包括向量数据库和检索增强生成，支持快速访问相关数据的海量信息存储，整合短期上下文内存和长期外部存储[38, 371, 1193, 513]。

非参数化方法保持冻结LLM参数，同时利用如RAG等外部资源丰富任务上下文[942]。如Reflexion等系统通过情景内存缓冲区中的自我反思反馈实现口头强化，而REMEMBERER整合持久经验内存，支持从过去成功和失败中学习。高级架构如MemoryBank支持内存检索、通过更新的持续演进，以及通过整合先前交互信息的人格适应[1211, 1372]。

专门内存架构通过复杂组织和检索机制应对特定代理需求。虽然早期系统需要预定义存储结构和检索时机，但如Mem0等较新系统整合图数据库遵循RAG原理，以更有效的内存组织和基于相关性的检索[1211]。商业和开源实现包括OpenAI ChatGPT Memory、Apple Personal Context、mem0和MemoryScope，展示内存系统用于增强个性化能力的广泛采用[1176]。工具增强范式验证在复杂任务分解中的有效性，同时利用世界交互工具，内存增强代理成为现代AI系统的核心，通过自然语言整合规划、工具使用、内存和多步推理执行复杂任务[251, 360, 1099, 34]。

5.2.3. 评估和挑战

内存评估框架已成为系统评估LLM代理多维度能力的关键组件，反映智能系统中内存的多方面性质。

这些全面评估方法揭示了重大挑战，同时指向有前景的研究方向，可能解锁内存增强代理的新能力。

评估框架和指标

当代内存评估采用专门指标，扩展超出传统NLP性能指标，以捕获内存功能性的细微方面[1340]。有效性指标聚焦于事实信息存储和利用，通过准确性度量（基于历史消息的响应正确性）和recall@5指标（前5结果中检索的相关消息百分比）。效率指标考察时间方面，通过响应时间（信息检索和利用的持续时间）和适应时间（新信息存储所需周期）[1340]。

如LongMemEval等广泛基准评估五个基本长期内存能力：信息提取、时间推理、多会话推理、知识更新和弃权，通过500个精心选择的疑问，展示商业助手中在延长交互中30%的准确性下降，而自动化内存评估框架促进彻底评估，超越passkey搜索方法[1180]。专用框架针对情景内存，通过评估涉及互连事件或复杂时空关联的情景内存挑战的基准，尽管在相对简短上下文中，尖端模型包括GPT-4、Claude变体和Llama 3.1仍面临困难[463]。当代LLM基准主要集中于评估模型对事实信息和语义关系的保留，而显著忽略情景内存评估——将记忆与时间和空间发生细节上下文化的能力[847]。

任务特定评估涵盖长上下文段落检索（在扩展上下文中定位特定段落）、长上下文摘要（开发用于简洁摘要的全面理解）、NarrativeQA（基于冗长叙述回答问题），以及如MADail-Bench等专门基准，评估对话上下文中的被动和主动内存回忆，具有新颖维度包括内存注入、情绪支持熟练度和亲密度评估[1339, 1390, 556, 390]。额外任务特定框架包括用于会议摘要的QMSum、用于阅读理解的QuALITY、需要时空内存的基于对话的DialSim，以及用于个性化具身代理评估的MEMENTO，使用两阶段过程评估物理环境任务中的内存利用[1390, 572]。

当前局限性和挑战

内存评估面临限制有效能力评估的重大挑战。基本局限性包括缺乏评估内存性能的一致、严谨方法，特别是关于超出训练数据的泛化[288]。缺乏专为长期内存评估设计的标准化基准代表另一重大障碍，现有的框架往往无法捕获人类级智能所需的全谱内存能力[1079]。

架构约束显著复杂化评估努力，因为大多数当代基于LLM的代理以根本无状态方式运作，独立处理交互而无真正渐进知识积累[1365, 1364]，尽管通过注意力标签机制的进展实现工作内存[870]。这一局限性阻止真正终身学习评估——人类级智能的基石，涉及跨多样上下文和扩展时间视野的持续知识获取、保留和重用。

方法论问题出现在隔离内存特定性能与其他智能方面时，挑战确定失败是否源于不充足的内存机制或推理局限性[288]。现实世界应用中的动态内存使用构成评估挑战，因为受控实验室测试无法充分捕获复杂场景中内存系统性能，其中信息相关性不可预测地变化[1079]。

优化策略和未来研究方向

内存优化涵盖多样化技术，提升利用同时最小化计算开销并最大化效率。受生物启发的遗忘机制提供有效优化方法，如MemoryBank等框架实现艾宾浩斯遗忘曲线，根据时间因素和重要性选择性保留和丢弃信息[1372]。通过如Reflexion等系统的反思基于优化，通过集成评估和自我反思创建双反馈系统，通过持续学习优化内存和行为[304]。

层次内存结构通过多级格式优化信息组织，支持高效检索，由经验基于层次控制框架的快速内存访问模块展示[868]，通过双向快慢变量交互的内存巩固过程[63]，以及自适应跨注意力网络根据查询相关性动态排序内存[410]。未来研究方向涵盖结合参数化精确性和非参数化效率的混合内存框架[942]、用于可扩展响应评估的自动化反馈机制[893]、通过共享外部内存支持协作学习的的多代理内存系统[306]、具有知识图谱整合的增强元数据学习[896, 386]、用于特定应用的特定领域内存架构[507]、整合非活跃期内存巩固的认知启发优化[758]，以及通过如Low-Rank Adaptation等技术的高效知识整合的参数高效内存更新[428, 256]。这些发展承诺将内存增强LLM代理向复杂、类人类认知能力推进，同时应对计算和架构局限性，应用扩展到长期机器人规划、现实世界决策系统和通过流式学习场景和持续反馈整合的协作AI助手[1159, 1346, 1278]。

5.3. 工具集成推理

工具集成推理（Tool-Integrated Reasoning）将语言模型从被动文本生成器转变为能够动态工具利用和环境操纵的主动世界互动者。这一实现支持模型通过函数调用机制、集成推理框架和复杂环境交互能力超越其固有局限性。

5.3.1. 函数调用机制

函数调用通过结构化输出生成将LLM从生成模型转变为交互代理，利用函数的抽象机制，支持外部工具操纵和访问当前、特定领域的信息以复杂问题解决[5, 669, 335, 882, 58, 523, 1113]。

演进从Toolformer的自监督方法开始，展示自治API学习，启发ReAct的“思想-行动-观察”周期，通过如Gorilla等专门模型和包括ToolLLM、RestGPT的综合框架进展，OpenAI的JSON标准化，而如Chameleon等高级系统支持多模态问答，TaskMatrix.AI管理跨领域的AI模型[939, 252, 654, 547, 923, 874, 875, 715, 659, 953]。

技术实现涉及微调（通过广泛API训练提供稳定能力的主导方法，但需要显著资源）和提示工程（灵活、资源高效但不稳定），如“Reverse Chain”等方法通过提示支持API操作，应对大量工具管理的挑战[392, 5, 1332, 791, 144, 254]。

核心过程涵盖意图识别、函数选择、参数-值对映射、函数执行和响应生成，现代实现利用结构化LLM输出进行外部程序交互，而工具包括多样化接口（数字系统、便笺簿、用户交互、其他LLM、开发者代码），需要复杂导航工具选择、参数制定和结果解析[1268, 669, 1141, 193, 960, 590, 910]。

训练方法论和数据系统

训练方法论从基本基于提示的方法演进到复杂多任务学习框架，通过如ToolLLM和Granite-20B-FunctionCalling等系统在专门数据集上微调，从合成单工具数据开始，随后人类注释[392, 5, 357, 777, 1235]。

数据生成策略包括Weaver的基于GPT-4的环境合成、APIGen的分层验证管道（格式检查、函数执行、语义验证），生成超过60,000个高质量条目跨数千API[1113, 1186, 1268, 1165, 65, 1403, 749]。

工具选择增强涉及无关感知数据增强，Hammer的函数掩码技术，用于增加难度的预言工具混合，用于过度触发缓解的工具意图检测合成，强调通过严格过滤和格式验证的高质量数据[670, 10, 357, 473, 1300, 218]。

自我改进范式通过JOSH算法的稀疏奖励模拟环境和TTPA的具有错误导向评分的Token级优化减少外部监督依赖，展示改进同时保留一般能力[579, 446, 366, 1271]。

复杂基准包括API-Bank（73个API，314个对话）、StableToolBench（API不稳定性解决方案）、NesTools（嵌套工具评估）、ToolHop（995个查询，3,912个工具），应对单工具到多跳场景[621, 363, 377, 1264, 827, 995, 1257, 987]。

5.3.2. 工具集成推理

工具集成推理（Tool-Integrated Reasoning，TIR）代表大型语言模型能力的范式进步，通过在推理过程中动态与外部资源交互，应对包括过时知识、计算不准确和浅层推理在内的基本局限性[864]。不同于独依赖内部模型知识的传统推理方法，TIR建立协同关系，其中推理指导将复杂问题分解为可管理子任务，而专用工具确保每个计算步骤的准确执行[777]。这一范式通过要求模型自治选择适当工具、解释中间输出，并基于实时反馈自适应优化其方法，扩展超出传统基于文本的推理[864]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图6：工具增强系统框架：从文本生成器到世界交互器的演进，通过函数调用机制、工具集成推理以及环境交互能力。

TIR方法论的演进涵盖三个主要实现类别，应对工具利用优化的不同方面。基于提示的方法通过精心设计的指令指导模型而无需额外训练，示例包括将数学问题分解为可执行代码，同时委托计算给Python解释器的方法[155, 601]。监督微调方法通过模仿学习教授工具使用，如ToRA聚焦于通过整合自然语言推理与计算库和符号求解器的数学问题解决[345]。强化学习方法通过结果驱动奖励优化工具使用行为，尽管当前实现往往优先最终正确性而无视效率，可能导致模型过度依赖外部工具的认知卸载现象[227]。

在操作方面，基于TIR的代理作为智能编排者，系统交织认知处理与外部资源参与以实现目标结果[1095]。这一机制要求内在推理能力和外在工具利用的和谐整合，以渐进知识合成向目标实现，其中代理的执行路径正式特征化为工具激活的结构序列，耦合相应信息同化事件[1095]。新兴发展建立了代理式推理架构，通过整合自治工具部署代理、流畅编排基于Web的信息检索、计算处理和分层推理-内存整合，提升语言模型智能，以应对需要全面研究和级联逻辑分析的复杂挑战[1162]。

实现框架和范式

单工具框架通过针对特定计算领域的专门实现建立了工具集成推理的基础原理。程序辅助语言模型（Program-Aided Language Models，PAL）开创问题分解策略，通过生成可执行代码，同时委托数学计算给Python解释器[309]。ToolFormer展示语言模型可通过最小演示学习外部API使用，整合计算器、搜索引擎和多样工具以增强计算能力[939]。ToRA通过整合自然语言处理与计算库和符号求解器推进数学推理，而ReTool应用强化学习优化代码解释器使用，展示自我纠正模式的改进[345, 1320, 973]。Self-Edit利用生成代码的执行结果改进竞争编程任务的代码质量，采用故障感知代码编辑器基于测试用例结果纠正错误[1318]。

多工具协调系统应对在集成推理架构中编排异构工具的复杂性。ReAct开创交织推理轨迹与任务特定行动的“思想-行动-观察”周期，支持模型互补思考和行动，其中推理支持计划跟踪，而行动与外部信息源接口[1254]。Chameleon引入即插即用组合推理，通过基于LLM的规划器核心合成结合视觉模型、搜索引擎和Python函数的程序[715]。AutoTools建立自动化框架，将原始工具文档转换为可执行函数，减少工具整合中的手动工程需求[423, 960]。Chain-of-Agents（CoA）训练模型解码具有抽象占位符的推理链，随后调用特定领域工具填充知识差距[600, 1337]。

基于代理的框架代表TIR系统的最复杂演进，超越静态提示方法，创建自治和自适应AI系统。不同于遵循刚性模式的传统工具使用，代理模型学习将思考链（CoT）和行动链（CoA）模式耦合到其核心行为，导致更强的逻辑连贯性和推理与行动之间的自然过渡[1338]。这些系统建立在基础代理架构之上，包括将感知直接映射到行动的反应系统、实现信念-欲望-意图（Belief-Desire-Intention，BDI）模型的审议系统，以及在层次结构中结合多个子系统的混合架构[734]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表7：工具增强语言模型架构：跨8个工具类别的方法比较，包括搜索、计算、知识库、API、多模态、语言工具、交互环境以及领域特定应用。

5.3.3. 代理-环境交互

强化学习方法已成为优于基于提示方法和监督微调的工具整合替代方案，支持模型通过探索和结果驱动奖励自治发现最优工具使用策略[227]。ReTool通过聚焦于数学推理的代码解释器优化示例这一进展，在仅400个训练步后在AIME2024基准上实现67.0%的准确性，大幅优于在广泛训练中达到40.0%准确性的基于文本的RL基线[274]。这展示显式在决策过程中建模工具使用增强推理能力和训练效率。

搜索增强推理系统代表将信息检索直接整合到推理过程的创新，通过专门学习环境。Search-R1框架训练模型在多步推理任务期间动态决策何时搜索和生成何种查询，不同于传统检索增强生成系统[984]。架构采用结构化推理和搜索过程的专门Token系统，其中模型学习生成交织显式搜索行动的推理步骤，通过Token封装生成的查询[654]。多轮和可定制工具调用框架应对推理过程中协调多个异构工具的复杂性。近期发展包括如VisTA等框架，使用强化学习支持视觉代理基于经验性能动态探索、选择和组合多样库中的工具[460]。ReVeal展示通过迭代生成-验证过程的自我演化代码代理[512]。在多模态领域，如VideoAgent等系统采用视觉-语言基础模型作为翻译和检索视觉信息的工具，在视频理解基准上实现令人印象深刻的性能[1117, 258]。

评估和应用

工具集成推理系统的全面评估需要专门基准，衡量工具集成能力而非一般模型性能。MCP-RADAR提供标准化评估框架，采用从可量化性能数据衍生的严格客观指标，具有可扩展设计跨越软件工程、数学推理和一般问题解决领域[314]。框架通过雷达图可视化性能，突出模型在多维度上的优势和弱点，支持系统比较工具集成语言模型，而无论实现机制。

现实世界评估方法揭示当前系统与人类级能力之间的显著性能差距，提供实际局限性和优化机会的关键见解。通用工具代理（General Tool Agents，GTA）基准通过具有隐式工具使用需求的真实人类编写查询、跨感知、操作、逻辑和创造力类别的部署工具的评估平台，以及包括图像和代码片段的真实多模态输入，应对现有评估的局限性[1098]。结果展示当前LLM的重大挑战，GPT-4完成少于50%的任务[1098]。

函数调用支持复杂多代理系统，其中多个LLM代理通过协调工具使用和任务分解协作，MAS通过并行处理、信息共享和自适应角色分配利用集体智能，而LLM整合通过如DyLAN、MAD和MetaGPT等框架增强规划、专业化和任务分解能力[243, 911, 348, 140, 631]。高级多代理函数调用采用复杂编排机制，将复杂任务分解为可管理子任务，基本方法涉及将奖励机拆分为并行执行单元，每个代理维护单个奖励机、局部状态空间和命题，而自适应编排基于上下文、响应和状态报告动态代理选择[39, 1056, 697, 117]。

5.4. 多代理系统

多代理系统（Multi-Agent Systems）代表协作智能的巅峰，支持多个自治代理协调和通信以解决超出单个代理能力的复杂问题。这一实现聚焦于复杂通信协议、编排机制和协调策略，支持跨多样代理架构的无缝协作。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

图7：多代理系统框架：协作AI代理系统的通信协议、协调机制以及协调策略概述。

5.4.1. 通信协议

代理通信系统源于20世纪90年代初的知识共享努力，建立自治实体协调的基础原理，通过标准化语言应对互操作性挑战[373, 93]。KQML作为开创性代理通信语言，引入多层架构，将内容、消息和通信层分离，同时采用言语行为理论[373, 82, 663, 284]。FIPA ACL通过基于模态逻辑、可行性前提和理性效应的语义框架增强这一基础[1155, 373, 82]。

互操作性要求需要语义级通信能力，支持跨平台代理理解而无需广泛预通信设置，通过本体基于协议形式化和语义Web技术应对日益异构性，同时整合针对通信漏洞的安全机制[486, 66, 449, 487, 792, 1063]。

当代协议生态

当代标准化协议应对阻碍LLM代理协作的碎片化挑战[1244, 1137, 412]。MCP作为“AI的USB-C”，通过JSON-RPC客户端-服务器接口标准化代理-环境交互，支持跨多样领域的数百服务器，同时引入安全漏洞[934, 250, 622, 270, 15, 261, 930, 1102, 374, 1194, 301, 1016, 719, 273]。

A2A通过基于能力的代理卡标准化点对点通信，支持任务委托和通过JSON基于生命周期模型的安全协作[622, 250, 934]。ACP提供通用RESTful HTTP通信，支持多部分消息和同步/异步交互，具有发现、委托和编排功能[281, 250]。

ANP通过W3C去中心化标识符和JSON-LD图扩展到开放互联网的互操作性，具有新兴协议AGNTCY和Agora多样化标准化生态[250, 685, 1137]。

渐进分层策略：MCP提供工具访问，ACP支持消息交换，A2A支持对等交互，ANP扩展网络互操作性[1015, 934]。

LLM增强通信框架

LLM通过复杂自然语言处理转变代理通信，支持前所未有的上下文敏感性，跨学术和工业应用，跨越社会科学、自然科学和工程领域[492, 690, 504, 1099, 1179, 1136, 904, 1060, 879]。增强系统通过专门知识库、规划、内存和内省能力展示认知协同，支持协作、辩论导向和竞争通信范式[492, 360]。

通信结构涵盖分层层次组织、去中心化点对点网络、中央协调和共享消息池架构，补充以顺序交换、通用语言接口和消息传递策略[360, 1249, 1219, 171, 400, 491, 543, 665, 799, 949]。

框架实现支持综合生态：AutoGen支持动态响应生成，MetaGPT提供共享消息池，CAMEL提供集成编排，CrewAI促进适应，强化学习整合增强奖励重新设计、行动选择和策略解释[188, 38, 119, 1004, 228, 871, 935, 958, 1273]。人类-代理通信引入复杂交互景观，通过灵活参与和认知多样性，代理推断沟通者属性并镜像人类沟通意图[1409, 34, 675]。

5.4.2. 编排机制

编排机制构成多代理系统的关键协调基础设施，管理代理选择、上下文分配和交互流程控制[902]，支持人类和非人类参与者的有效协作，通过用户输入处理、上下文分配，以及基于能力评估和响应评估的最优代理选择[53]，同时管理消息流，确保任务进展，并应对任务偏差[175]。高级编排框架整合意图识别、上下文内存维护和任务分配组件，以实现跨特定领域代理的智能协调，Swarm Agent框架利用实时输出指导工具调用，同时解决静态工具注册表和定制通信框架的局限性[814, 267, 250]。

当代编排策略展示不同的操作范式：先验编排通过用户输入和代理能力的预执行分析确定代理选择，而后验编排同时向多个代理分配输入，利用置信度指标和响应质量评估，如3S编排框架所示[901]；基于函数的编排强调从可用池中选择代理、上下文信息管理和对话流程控制[54]；基于组件的编排采用动态规划过程，其中编排者根据用户指令将组件排列为逻辑序列，利用LLM作为组件编排工具生成嵌入编排逻辑的工作流[681]。

新兴编排范式包括木偶师式编排，具有中央编排者通过强化学习基于自适应排序和优先级的动态指导代理响应演进任务状态，以及序列化编排，通过将协作图展开为由拓扑遍历指导的推理序列应对协作拓扑复杂性，支持编排者在每个步骤基于全局系统状态和任务规范选择单个代理[198]。

上下文管理和环境适应

上下文作为指导代理行动和交互的基础元素，支持操作模式多样性，同时保持应用个性和任务执行排序，通过全局状态维护支持编排系统跨分布式节点跟踪任务执行进展，向代理提供上下文感知以在更广泛工作流上下文中有效执行子任务[26]。基于会话的上下文优化定义协作范围边界，促进事件驱动编排，其中代理可动态进入和退出、创建输出流，并贡献共享会话流，可配置会话基于用户输入或自治决策支持代理纳入，以创建响应变化任务需求的适应系统[519]。

设计良好的交互结构和任务编排机制强调上下文在可扩展多代理协作中的关键作用。系统适应通信模式和代理角色以应对上下文需求，支持动态协作，针对特定任务需求，通过复杂任务分解和适当代理分配以子任务执行[1137]。这一上下文适应涵盖组织和操作维度，支持系统在适应环境变异性和演进用户需求的同时保持连贯性。

5.4.3. 协调策略

多代理编排在跨复杂工作流维护事务完整性方面面临重大挑战，当代框架包括LangGraph、AutoGen和CAMEL展示不足的事务支持：LangGraph提供基本状态管理而缺乏原子性保证和系统补偿机制，AutoGen优先灵活代理交互而无充足补偿行动管理，可能导致部分失败后不一致系统状态，以及验证局限性，因为许多框架独依赖大型语言模型的固有自我验证能力而无实现独立验证程序，暴露系统于推理错误、幻觉和代理间不一致[128]。

上下文处理失败加剧这些挑战，因为代理在长期上下文维护中挣扎，涵盖情景和语义信息[214, 1122]，而中央编排者拓扑引入非确定性、运行时依赖的执行路径，提升适应性同时复杂化异常检测，需要动态图重构而非简单路径匹配[394]，环境误配置和LLM幻觉可能分散代理系统，较差恢复导致目标偏差，在多代理设置中放大分布式子任务的目标偏差[214, 1099]。

代理间依赖不透明呈现额外关注，因为代理可能在无显式约束或验证层的情况下基于不一致假设或冲突数据运作，需要异常检测整合对编排意图和规划连贯性的推理[394]，而应对这些挑战需要综合解决方案，如SagaLLM框架提供事务支持、独立验证程序和稳健上下文保留机制[128]，以及如CodeAct等方法整合Python解释器与LLM代理，以支持代码行动执行和通过多轮交互的动态修订能力[1122]。

应用和性能含义

代理和上下文编排在多样应用领域展示实际效用：医疗应用在专门代理基于架构中采用上下文切换机制，进行信息检索、问答和决策支持，利用监督代理解释输入特征，并基于临床查询类型、用户背景和数据模态需求分配子任务到专门代理[619, 760, 1059]；网络管理应用利用上下文感知编排应对复杂性挑战，通过为访问点配备专用于独特上下文的代理，支持通过上下文特定行动集（包括可用服务实例和网络路径）的有效网络动态管理[966]。

业务过程管理和模拟代表重大应用领域，通过如AgentSimulator等平台，支持在编排和自治设置中过程行为发现和模拟，其中编排行为遵循全局控制流模式，活动选择依赖先前活动，代理分配基于能力和可用性，而自治行为通过局部控制流和移交模式运作，承认代理在协作工作中的自治[549]。

性能含义表明设计良好的编排通过利用独特代理能力改进系统有效性，研究展示人类用户经常在从可用集中有效选择代理时挣扎，而自动化编排提升整体性能[72]，激励框架在线学习代理能力，并在包括成本、能力需求和操作局限性的现实世界约束下编排多个代理，自治水平跨实现变异，其中一些系统在指定阶段展示显著自治，通过上下文资源利用展示适应性行动管理，并达到2级自治[466]。

6. 评估

上下文工程系统的评估呈现了超越传统语言模型评估范式的空前挑战。这些系统展示复杂的多组件架构，具有动态、上下文依赖的行为，需要综合评估框架，评估组件级诊断、基于任务的性能和整体系统鲁棒性[841, 1141]。

上下文工程组件的异构性质——涵盖检索机制、内存系统、推理链和多代理协调——要求评估方法能够捕获单个组件有效性和涌现系统级行为[314, 939]。

6.1. 评估框架与方法

本小节呈现评估上下文工程中单个组件和集成系统的综合方法。

6.1.1. 组件级评估

内在评估聚焦于隔离单个组件的性能，提供对系统能力和失败模式的基础见解。

对于提示工程组件，评估涵盖通过语义相似性指标的提示有效性测量、响应质量评估和跨多样化输入变异的鲁棒性测试。当前方法揭示提示设计中的脆弱性和鲁棒性挑战，需要更复杂的评估框架，能够评估上下文校准和自适应提示优化[1141, 669]。

长上下文处理评估需要专门指标，应对扩展序列中的信息保留、位置偏差和推理连贯性。“针在干草堆（needle in a haystack）”评估范式测试模型在长上下文中检索特定嵌入信息的能力，而多文档推理任务评估跨多个信息源的合成能力。位置插值技术和超长序列处理方法面临显著计算挑战，限制实际评估场景[737, 299]。

自我语境化机制通过元学习评估、适应速度测量和跨多迭代的一致性分析进行评估。包括Self-Refine、Reflexion和N-CRITICS在内的自我优化框架展示显著性能改进，GPT-4通过迭代自我优化过程实现约20%的改进[741, 964, 795]。多维度反馈机制和基于集合的评估方法为自主演进能力提供全面评估[583, 710]。

结构化和关系数据整合评估考察知识图谱遍历、表格理解和数据库查询生成的准确性。然而，当前评估框架在评估结构推理能力方面面临显著局限性，高品质结构化训练数据开发呈现持续挑战。基于LSTM的模型在顺序和结构信息冲突时展示增加的错误，突出需要更复杂基准测试结构理解[769, 674, 167]。

6.1.2. 系统级整合评估

外在评估测量下游任务的端到端性能，通过涵盖问答、推理和现实世界应用的综合基准提供系统效用的整体评估。

系统级评估必须捕获组件交互涌现的行为，包括结合组件超越单个性能的协同效应和组件整合降低整体有效性的潜在干扰模式[841, 1141]。

检索增强生成评估涵盖检索质量和生成有效性，通过综合指标应对精确率、召回率、相关性和事实准确性。代理式RAG系统引入额外复杂性，需要评估任务分解准确性、多计划选择有效性和内存增强规划能力。自我反思机制通过反馈循环展示迭代改进，MemoryBank实现整合艾宾浩斯遗忘曲线原则以增强内存评估[444, 166, 1372, 1192, 41]。

内存系统评估因缺乏标准化评估框架和当代LLM的无状态特性而遇到实质困难。LongMemEval提供500个精心策划的问题，评估包括信息提取、时间推理、多会话推理和知识更新的基本能力。商业AI助理在扩展交互中展示30%的准确性下降，强调内存持久性和检索有效性的显著缺陷[1340, 1180, 463, 847, 390]。专用基准如NarrativeQA、QMSum、QuALITY和MEMENTO应对情景记忆评估挑战[556, 572]。

工具集成推理系统需要覆盖整个交互轨迹的全面评估，包括工具选择准确性、参数提取精确性、执行成功率和错误恢复能力。MCP-RADAR框架提供标准化评估，采用用于软件工程和数学推理领域的客观指标。现实世界评估揭示显著性能差距，GPT-4在GTA基准中完成率低于50%[314, 1098, 126, 939]。包括BFCL（2,000个测试案例）、T-Eval（553个工具使用案例）、API-Bank（73个API，314个对话）和ToolHop（995个查询，3,912个工具）在内的高级基准应对多轮交互和嵌套工具调用场景[263, 363, 377, 1264, 160, 835]。

多代理系统评估通过专门指标捕获通信有效性、协调效率和集体结果质量，应对协议遵守、任务分解准确性和涌现协作行为。当代编排框架包括LangGraph、AutoGen和CAMEL展示不足的事务支持，验证局限性因系统仅依赖LLM自我验证能力而未实现独立验证程序。上下文处理失败加剧挑战，代理在涵盖情景和语义信息的长期上下文维护方面挣扎[128, 394, 901]。

6.2. 基准数据集与评估范式

本小节回顾专为评估上下文工程系统性能设计的专门基准和评估范式。

6.2.1. 基础组件基准

长上下文处理评估采用专门基准套件，设计用于测试跨扩展序列的信息保留、推理和合成。当前基准面临显著计算复杂性挑战，自注意力机制的O(n²)扩展局限性为超长序列创建实质内存约束。位置插值和扩展技术需要能够评估不同序列长度计算效率和推理质量的复杂评估框架[737, 299, 1236]。

包括LongMamba和专门位置编码方法在内的高级架构展示长上下文处理的潜力，尽管当前实现需要大量开发以在多样化任务中匹配Transformer性能。滑动注意力机制和内存高效实现的开发需要能够评估计算可行性和任务性能的综合基准[1267, 351]。

结构化和关系数据整合基准涵盖多样化知识表示格式和推理模式。然而，当前评估框架在评估结构推理能力方面面临局限性，高品质结构化训练数据开发呈现持续挑战。评估必须应对顺序和结构信息处理的基本张力，特别是在这些信息类型冲突的场景中[769, 674, 167]。

6.2.2. 系统实现基准

检索增强生成评估利用综合基准套件，应对多样化检索和生成挑战。模块化RAG架构通过用于检索、增强和生成的专门模块展示增强灵活性，支持单个组件及其交互的细粒度评估。整合GraphRAG和LightRAG的图增强RAG系统在复杂推理场景中展示改进性能，尽管评估框架必须应对图遍历和多跳推理评估的额外复杂性[316, 973, 364]。

代理式RAG系统引入复杂规划和反思机制，需要评估任务分解准确性、多计划选择有效性和迭代优化能力。实时和流式RAG应用在动态信息条件下评估延迟和准确性呈现独特挑战[444, 166, 1192]。

工具集成推理系统评估采用涵盖多样化工具使用场景和复杂水平的综合基准。Berkeley函数调用排行榜（Berkeley Function Calling Leaderboard，BFCL）提供2,000个测试案例，通过逐步和端到端评估测量调用准确性、通关率和胜率，跨日益复杂场景。T-Eval贡献553个工具使用案例，测试多轮交互和嵌套工具调用能力[263, 1390, 835]。包括StableToolBench（应对API不稳定性挑战）、NesTools（评估嵌套工具场景）和ToolHop（评估跨995个查询和3,912个工具的多跳工具使用）在内的高级基准[363, 377, 1264]。

Web代理评估框架包括WebArena和Mind2Web，提供跨137个网站的数千任务的综合评估，揭示当前LLM在复杂Web交互中的显著性能差距。VideoWebArena将评估扩展到多模态代理，而Deep Research Bench和DeepShop分别应对研究和购物代理的专门评估[1378, 206, 87, 482]。

多代理系统评估采用专门框架，应对协调、通信和集体智能。然而，当前框架在复杂工作流的事务完整性方面面临显著挑战，许多系统缺乏部分失败的充分补偿机制。编排评估必须应对上下文管理、协调策略有效性和在变化操作条件下的系统连贯性维护[128, 901]。

大型语言模型的上下文工程（Context Engineering）综述-AI.x社区

表8：WebArena [1378] 排行榜：表现最好的模型及其成功率和可用性状态。

6.3. 评估挑战与新兴范式

本小节识别评估方法中的当前局限性，并探索更有效评估的新兴方法。

6.3.1. 方法论局限性与偏差

传统评估指标证明在捕获上下文工程系统展示的细微、动态行为方面基本不足。最初为更简单文本生成任务设计的静态指标如BLEU、ROUGE和困惑度，无法评估复杂推理链、多步交互和涌现系统行为。多组件系统的固有复杂性和相互依赖性创建归因挑战，其中隔离失败和识别根本原因变得计算和方法上难以处理。未来指标必须演变为不仅捕获任务成功，还捕获底层推理过程的质量和鲁棒性，特别是在需要组合泛化的场景中[841, 1141]。

内存系统评估因缺乏标准化基准和当前LLM的无状态特性而面临特定挑战。自动化内存测试框架必须应对隔离问题，其中不同内存测试阶段无法有效分离，导致不可靠评估结果。商业AI助理在持续交互中展示显著性能下降，准确性下降高达30%，突出当前评估方法和对跟踪随时间内存保真度的纵向评估框架需求的批判性差距[1340, 1180, 463]。

工具集成推理系统评估揭示当前系统与类人能力之间的实质性能差距。GAIA基准展示人类在通用助理任务上实现92%准确性，而高级模型仅实现15%准确性，表明当前评估框架和系统能力的基本局限性[778, 1098, 126]。评估框架必须应对多样化操作上下文的多工具协调、错误恢复和自适应工具选择复杂性[314, 939]。

6.3.2. 新兴评估范式

自我优化评估范式利用迭代改进机制评估系统能力跨多优化周期。包括Self-Refine、Reflexion和N-CRITICS在内的框架通过多维度反馈和基于集合的评估方法实现显著性能改进。GPT-4通过自我优化过程实现约20%的改进，突出评估系统跨多迭代周期而非单次评估的重要性。然而，一个关键未来挑战在于评估元学习能力本身——不仅仅是系统是否改进，而是其在随时间优化策略的效率和鲁棒性[741, 964, 795, 583]。

多方面反馈评估整合包括正确性、相关性、清晰性和鲁棒性在内的多样化反馈维度，提供系统输出的全面评估。自我奖励机制支持自主演进和元学习评估，支持系统通过迭代优化开发日益复杂的评估标准[710]。

批评导向评估采用专门批评模型提供对系统输出的详细反馈，支持推理质量、事实准确性和逻辑一致性的细粒度评估。这些方法通过提供上下文感知、内容感知评估解决传统指标的局限性，能够适应多样化任务需求和输出格式[795, 583]。

编排评估框架通过整合事务完整性评估、上下文管理评估和协调策略有效性测量，应对多代理协调的独特挑战。包括SagaLLM在内的高级框架提供事务支持和独立验证程序，以应对仅依赖LLM自我验证能力的系统局限性[128, 394]。

6.3.3. 安全与鲁棒性评估

安全导向评估整合全面鲁棒性测试、对抗攻击抵抗和对齐评估，以确保上下文工程系统的负责任开发。代理式系统因其自主操作能力和跨扩展操作期的复杂交互模式呈现独特安全挑战[973, 364]。

鲁棒性评估必须通过综合压力测试协议评估系统在分布偏移、输入扰动和对抗条件下的性能。多代理系统在协调失败场景中面临额外挑战，其中部分系统失败可级联整个代理网络。评估框架必须应对优雅退化策略、错误恢复协议和在不利条件下维护系统功能的能力。除了预定义失败模式，未来评估必须应对“未知未知”——高度复杂、自主多代理系统中的涌现和不可预测失败级联[128, 394]。

对齐评估测量系统对预期行为的遵守、价值一致性和有益结果优化，通过专门评估框架。上下文工程系统因其动态适应能力和多组件的复杂交互模式呈现独特对齐挑战。长期评估必须评估系统是否在适应和演进时保持有益行为[901]。

展望未来，上下文工程系统的评估需要从静态基准向动态、整体评估的范式转变。未来框架必须超越测量任务成功，向评估新问题的组合泛化和交互环境中的长期自治。开发与AI能力共同演进的“活”基准，以及整合社会技术与经济指标，将对确保这些高级系统不仅强大，还在现实世界应用中可靠、高效并与人类价值对齐至关重要[314, 1378, 1340]。

上下文工程系统的评估景观随着新架构、能力和应用的涌现持续快速发展。未来评估范式必须应对日益增长的系统复杂性，同时为系统改进和部署决策提供可靠、全面和可操作的见解。从组件级评估到系统级鲁棒性测试的多评估方法整合代表确保上下文工程系统在现实世界应用中可靠部署的关键研究优先级[841, 1141]。

7. 未来方向与开放挑战

上下文工程处于关键转折点，其中基础进步与新兴应用需求汇聚，创造创新的空前机会，同时揭示需要跨多维度持续研究努力的基本挑战[841, 1141]。

随着领域从隔离组件开发向集成系统架构转变，研究挑战的复杂性指数增长，需要桥接理论计算机科学、实用系统工程和特定领域专长的跨学科方法[314, 939]。

本节系统考察将定义未来十年上下文工程演进的关键研究方向和开放挑战。

7.1. 基础研究挑战

本小节考察必须解决以推进上下文工程系统超越当前局限性的核心理论和计算挑战。

7.1.1. 理论基础与统一框架

上下文工程当前运作缺乏连接不同技术和提供原则性设计指南的统一理论基础，代表关键研究差距，限制系统进步和最优系统开发。

缺乏表征上下文工程能力、局限性和跨不同架构配置的最优设计原则的数学框架，阻碍基本理解和实用优化[1141, 669, 841, 314]。

上下文工程系统的信息论分析需要全面调查最优上下文分配策略、信息冗余量化以及上下文窗口内基本压缩限制。当前方法缺乏确定最优上下文组成的原则性方法，导致次优资源利用和性能下降。研究必须建立上下文效率的数学界限、开发上下文选择的优化算法，并创建预测不同上下文配置系统行为的理论框架[737, 299]。

上下文工程系统的组合理解需求正式模型，描述单个组件在集成架构内如何交互、干扰和协同。组件交互的复杂行为涌现需要通过实证研究和理论建模方法系统调查。多代理编排在开发预测协调有效性和涌现协作行为的数学框架方面呈现特定挑战[128, 901]。

7.1.2. 规模定律与计算效率

LLM的卓越理解能力和显著生成局限性之间的基本不对称代表上下文工程研究中最关键挑战之一。

这种理解-生成差距在多维度中表现，包括长篇输出连贯性、事实一致性维护和规划复杂性，需要调查局限性是否源于架构约束、训练方法或基本计算界限[841, 1141]。

长篇生成能力需求对规划机制的系统调查，能够在数千Token中维护连贯性，同时保留事实准确性和逻辑一致性。当前系统在扩展生成任务中展示显著性能下降，突出超越传统Transformer范式的架构创新需求。包括Mamba在内的状态空间模型通过线性扩展属性展示更高效长序列处理的潜力，尽管当前实现需要大量开发以在多样化任务中匹配Transformer性能[737, 1267, 351, 220]。

上下文扩展效率面临基本计算挑战，当前注意力机制随序列长度平方扩展（O(n²)），为超长序列创建禁止性内存和计算需求。滑动注意力机制和内存高效实现代表有前景方向，尽管需要显著研究以应对计算可行性和推理质量保留[299, 1236, 351]。位置插值和扩展技术需要进步以处理超出当前架构局限性的序列，同时维护位置理解和连贯性。

7.1.3. 多模态整合与表示

上下文工程系统内多样模态的整合在表示学习、跨模态推理和统一架构设计方面呈现基本挑战。当前方法通常采用具有有限跨模态交互的模态特定编码器，无法捕获表征复杂多模态理解的丰富相互依赖性。VideoWebArena展示多模态代理评估的复杂性，揭示当前系统在同时处理视频、音频和文本时的实质性能差距[482]。

除了这些感官模态，上下文工程还必须处理更抽象的信息形式，如图，其结构语义无法直接由语言模型解释。捕获图结构编码的高级含义引入独特挑战，包括将图表示与语言模型嵌入对齐和高效表达图拓扑。最近努力如GraphGPT[1032]和GraphRAG[248]通过跨模态对齐策略尝试弥合这一差距，而其他努力探索将图转换为自然语言描述以促进模型理解[266, 323]。Bi et al.[75]进一步提出分治方法编码文本属性异构网络，应对上下文长度局限性并支持有效链接预测。因此，图推理作为上下文工程的核心难点，需要模型导航超越原始模态的复杂关系结构。

跨多模态上下文的时间推理需要能够跨扩展序列跟踪对象持久性、因果关系和时间动态的复杂架构。包括WebArena在内的Web代理框架展示在涉及多样模态和动态内容的复杂多步交互中维护连贯理解的挑战。当前系统在协调多模态信息处理与行动规划和执行方面展示显著局限性[1378, 206]。

跨模态对齐和一致性在确保从不同模态提取的信息保持事实一致性和语义连贯性方面呈现持续挑战。Deep Research Bench评估揭示当前多模态代理在需要跨文本、视觉和结构化数据源合成的复杂研究任务中的显著挑战，突出需要更复杂对齐机制[87]。

7.2. 技术创新机会

本小节探索有望增强上下文工程能力的新兴技术方法和架构创新。

7.2.1. 下一代架构

超越传统Transformer范式的架构创新为应对上下文工程系统的当前局限性提供有前景方向。包括LongMamba在内的状态空间模型通过线性扩展属性和改进内存利用展示更高效长序列处理的潜力，尽管当前实现需要大量开发以在多样化任务中匹配Transformer性能[1267, 737]。专门位置编码方法和参数高效架构呈现扩展到超长序列的机会，同时维护计算可行性[351, 299]。

内存增强架构需要超越当前外部内存机制的进步，以支持更复杂的长期内存组织、层次内存结构和自适应内存管理策略。MemoryBank实现整合艾宾浩斯遗忘曲线原则以实现内存持久性，尽管需要显著研究以应对当前LLM的基本无状态性质[1372, 1340, 1180, 819, 1211]。能够跨扩展交互维护连贯长期上下文的情景内存系统开发代表关键架构挑战[463, 847, 397]。

模块化和组合架构通过专门组件整合支持灵活系统构建，同时维护整体系统连贯性。模块化RAG架构通过用于检索、增强和生成的专门模块展示增强灵活性，支持单个组件的细粒度优化。包括GraphRAG和LightRAG在内的图增强方法展示整合结构化知识表示与神经处理的潜力[316, 973, 364]。

7.2.2. 高级推理与规划

上下文工程系统需要增强推理能力，涵盖因果推理、反事实思考、时间推理和跨扩展上下文的类比推理。当前系统展示对需要整合多个证据源、考虑替代场景和维护复杂推理链逻辑一致性的复杂推理模式的有限容量[1141, 841]。

多步规划和执行能力代表关键进步领域，支持系统分解复杂任务、制定执行策略、监控进展并基于中间结果适应计划。代理式RAG系统展示复杂规划和反思机制，需要整合任务分解、多计划选择和迭代优化能力。然而，当前实现面临在扩展规划视野中维护连贯性和适应动态信息条件的显著挑战[444, 166, 1192]。

工具集成推理代表范式进步，需要在推理过程中动态与外部资源交互。GAIA基准展示实质性能差距，人类实现92%准确性，而高级模型仅实现15%，突出当前推理和规划能力的基本局限性[778, 1098, 126]。高级工具整合必须应对多样化操作上下文的自主工具选择、参数提取、多工具协调和错误恢复[314, 939]。

7.2.3. 复杂上下文组织与解决图问题

图推理代表上下文工程的基本挑战，需要系统导航复杂结构关系，同时维护互连元素间的语义理解。最近图-语言模型整合的进步展示多范式：整合图特定组件的专门架构方法和将图结构转换为自然语言表示的基于文本的编码策略[1093, 1031]。

架构整合方法包括GraphGPT，采用双阶段指令调优，通过自监督图匹配将图结构信息与语言Token对齐[1031, 747]。此框架引入通过图指令调优优化的专门GraphToken，并利用轻量级图-文本对齐投影器在文本和结构处理模态间过渡[1279, 278]。基于指令调优范式，GraphWiz通过整合DPO增强推理可靠性，在多样化图任务中实现65%的平均准确性，显著优于GPT-4的43.8%[145]。思考链蒸馏机制增强逐步推理性能[1147, 1401]。RL代表另一有前景方向，如G1所示，在合成图论任务上训练LLM，使用包含50个多样任务的Erdős数据集，实现3B参数模型的强大零样本泛化，优于显著更大的模型[361]。

基于文本的编码方法使用少样本提示和思考链推理将图结构转换为自然语言描述，而无需架构修改[266, 196]。这些方法引入多样化图描述模板，通过多语义解释上下文化结构元素[944, 722]。最近工作调查图描述排序对LLM性能的影响，揭示顺序呈现显著影响模型理解和推理准确性[323]。基准评估扩展到GraphArena，提供多项式时间任务和NP完全挑战，具有严格评估框架，将输出分类为正确、次优、幻觉或缺失[1033]。结合现有基准如NLGraph和GraphDO，这些评估揭示简单连通性问题与如最大流计算的复杂任务间的实质性能差距[1093, 903, 323]。

当前实现面临扩展到大型结构、维护多跳关系一致性和泛化到新拓扑的挑战，基于文本的方法提供可解释性，但结构精确性降低，而专门架构通过增加复杂性提供增强性能[897, 1109]。新兴混合方法包括InstructGraph和GraphAdapter，通过结构化格式语言化和基于GNN的适配器尝试桥接这些范式，尽管在处理动态结构和关系时间演进方面局限性持续存在[265]。展望未来，通过关联网络组织信息而非碎片化搜索的广泛连接范式，从中心节点向外扩展以发现实体间潜在连接，可能代表下一代用于复杂上下文组织的RAG系统[131]。

7.2.4. 智能上下文组装与优化

能够从可用组件智能组装上下文的自动化上下文工程系统代表关键研究前沿，需要开发上下文优化算法、自适应选择策略和学习组装函数。当前方法高度依赖启发式方法和特定领域工程，限制跨多样化应用的扩展性和最优性[1141, 669]。

自我优化机制通过迭代改进过程展示智能上下文优化的实质潜力。Self-Refine、Reflexion和N-CRITICS框架实现显著性能改进，GPT-4通过迭代优化展示约20%的改进。然而，这些方法需要在跨多样上下文的自主演进和元学习的优化策略方面进步[741, 964, 795, 583]。

整合包括正确性、相关性、清晰性和鲁棒性在内的多样化反馈维度的多维度反馈机制为上下文优化提供有前景方向。自我奖励机制支持自主演进能力，尽管研究必须应对最优适应率、稳定-可塑性权衡和在变化操作条件下保留有益适应的基本问题[710]。

7.3. 应用驱动研究方向

本小节应对现实世界部署需求和特定领域应用涌现的研究挑战。

7.3.1. 领域专业化与适应

上下文工程系统需要复杂专业化机制，用于包括医疗、法律分析、科学研究、教育和工程应用在内的多样化领域，每个领域呈现独特知识整合、推理模式、安全考虑和监管合规需求。特定领域优化需求调查转移学习策略、领域适应技术和保留通用能力同时增强特定领域性能的专门训练范式[1141, 669]。

科学研究应用需要对复杂技术内容、数学表达式、实验数据和理论框架的复杂推理，同时维护严格准确性标准。Deep Research Bench评估揭示当前系统在需要跨多个信息源合成和对技术内容推理的复杂研究任务中的显著挑战。研究必须应对符号推理与神经方法的整合和特定领域知识库的纳入[87]。

医疗应用需求全面安全评估框架、监管合规机制、隐私保护协议和与现有临床工作流的整合，同时维护可解释性和可审计性需求。医疗上下文工程必须应对处理敏感信息、确保临床准确性、支持诊断推理和在复杂医疗生态中维护患者隐私的挑战。当前评估框架揭示医疗推理能力和安全评估方法中的实质差距[390]。

7.3.2. 大规模多代理协调

将多代理上下文工程系统扩展到数百或数千参与代理需要开发分布式协调机制、高效通信协议和层次管理结构，维护系统连贯性同时支持局部自治。研究必须应对大规模代理群体中的分布式共识、容错和涌现行为预测的基本挑战[243, 140]。

通信协议标准化代表关键研究前沿，包括MCP（“AI的USB-C”）、A2A（代理到代理）、ACP（代理通信协议）和ANP（代理网络协议）在内的新兴协议展示需要统一框架，支持跨多样化代理生态的互操作性。然而，当前实现面临必须解决以实现大规模部署的安全漏洞和扩展性局限性[37, 1015, 468, 1, 250, 934, 622]。

包括事务完整性、上下文管理和协调策略有效性在内的编排挑战代表大规模多代理部署的显著障碍。包括LangGraph、AutoGen和CAMEL在内的当代框架展示不足的事务支持和验证局限性，需要仅依赖LLM自我验证能力的系统。高级协调框架必须应对部分失败的补偿机制和在变化操作条件下的系统连贯性维护[128, 394, 901]。

7.3.3. 人类-AI协作与整合

复杂人类-AI协作框架需要对人类认知过程、通信偏好、信任动态和协作模式的深入理解，以支持利用互补优势的混合团队。研究必须调查人类与AI系统间的最优任务分配策略、通信协议和共享心智模型开发[1141, 841]。

Web代理评估框架揭示人类-AI协作中的显著挑战，特别是在需要持续交互和协调的复杂任务场景中。WebArena和Mind2Web展示当前系统在跨多样网站的多步交互中维护连贯理解的挣扎，突出协作任务执行的基本差距。高级接口需要调查上下文感知适应和个性化机制，以增强人类-AI团队性能[1378, 206]。

信任校准和透明机制代表确保人类对AI系统适当依赖同时维护人类能动性和决策权威的关键研究领域。评估框架必须应对解释生成、不确定性通信和置信度校准，以支持协作场景中的明智人类决策。包括GAIA在内的基准揭示的实质性能差距强调开发能够有效沟通其局限性和能力系统的透明性的重要性[778, 1098]。

7.4. 部署与社会影响考虑

本小节考察大规模部署上下文工程系统的关键考虑，同时确保负责任和有益结果。

7.4.1. 可扩展性与生产部署

上下文工程系统的生产部署需要应对多维度可扩展性挑战，包括计算资源管理、延迟优化、吞吐量最大化和成本效率，同时在多样化操作条件下维护一致性能。当前注意力机制的O(n²)扩展局限性创建部署超长上下文系统的实质障碍，需要内存高效架构和滑动注意力机制的进步[299, 1236]。

随着上下文工程系统在跨领域决策过程中承担日益重要角色，可靠性和容错机制变得关键。多代理编排框架在复杂工作流的事务完整性维护方面面临特定挑战，当前系统缺乏部分失败的充分补偿机制。研究必须应对优雅退化策略、错误恢复协议和在不利条件下维护系统功能的冗余机制[128, 394]。

可维护性和演进挑战需要调查系统版本控制、向后兼容性、持续整合协议和自动化测试框架，支持无中断部署服务的持续系统改进。内存系统实现因当前LLM的无状态性质和缺乏长期内存持久性和检索效率标准化基准而面临额外挑战[1340, 1180]。

7.4.2. 安全、安全性与鲁棒性

全面安全评估需要开发能够识别潜在失败模式、安全违规和意外行为的评估框架，跨上下文工程系统能力的全部范围。代理式系统因其自主操作能力和跨扩展操作期的复杂交互模式呈现独特安全挑战[973, 364]。

安全考虑涵盖对抗对抗攻击、数据中毒、提示注入、模型提取和隐私违规的保护，同时维护系统功能和可用性。包括MCP、A2A和ACP在内的多代理通信协议引入必须解决的安全漏洞，同时保留互操作性和功能。研究必须开发防御机制和检测系统，应对分布式代理网络中演变威胁景观[250, 934]。

对齐和价值规范挑战需要调查确保上下文工程系统根据预期目标行为同时避免规范博弈、奖励黑客和目标不对齐的方法。上下文工程系统因其动态适应能力和多组件的复杂交互模式呈现独特对齐挑战。评估框架揭示的实质性能差距强调开发能够随系统演进而维护有益行为的稳健对齐机制的重要性[778, 128]。

7.4.3. 伦理考虑与负责任开发

偏差缓解和公平评估需要综合评估框架，能够识别和应对不同人口群体、应用领域和用例的系统偏差，同时维护系统性能和效用。研究必须调查训练数据、模型架构和部署上下文中的偏差源，同时开发应对根本原因而非症状的缓解策略[1141, 841]。

隐私保护机制必须应对处理敏感信息、防止数据泄漏和维护用户隐私的挑战，同时支持有益系统能力。内存系统因其持续信息存储和检索能力面临特定隐私挑战，需要高级框架用于安全内存管理和选择性遗忘机制[1340, 463]。

透明性和问责框架需要开发解释系统、审计机制和治理结构，支持上下文工程系统的负责任监督，同时支持创新和有益应用。包括GAIA在内的评估框架揭示的实质性能差距突出透明能力通信和部署系统适当预期设置的重要性[778, 1098]。

上下文工程的未来将由我们通过持续、协作研究努力应对这些互连挑战的能力塑造。成功将需要对基本研究、跨学科协作和负责任开发实践的持续投资，确保上下文工程系统在日益整合到关键社会功能时保持有益、可靠并与人类价值对齐[841, 1141, 314]。

8. 结论

本综述呈现了对上下文工程作为正式学科的首次全面考察，该学科系统设计、优化和管理大型语言模型的信息负载。通过对超过1400篇研究论文的分析，我们将上下文工程确立为开发有效整合外部知识、维护持续内存并动态与复杂环境交互的复杂AI系统的关键基础。

我们的主要贡献在于引入统一分类框架，将上下文工程技术组织为基础组件（上下文检索与生成、上下文处理和上下文管理）和系统实现（检索增强生成、内存系统、工具集成推理和多代理系统）。此框架展示核心技术能力如何整合为应对现实世界需求的复杂架构。

通过这一系统考察，我们识别了几个关键见解。首先，我们观察到LLM在理解复杂上下文的卓越能力和生成同样复杂输出的局限性之间的基本不对称。这一理解-生成差距代表领域面临的最关键挑战之一。其次，我们的分析揭示日益复杂的整合模式，其中多技术协同结合，创建超越其单个组件的能力。第三，我们观察到向模块化和组合性的清晰趋势，支持适应多样化应用的灵活架构，同时维护系统连贯性。我们识别的评估挑战强调需要综合评估框架，捕获上下文工程系统展示的复杂、动态行为。传统评估方法对整合多组件、展示自适应行为并跨扩展时间范围操作的系统证明不足。我们对未来研究方向的考察揭示包括开发高效长上下文处理的下一代架构、创建智能上下文组装系统和推进多代理协调机制的重大机会。关键挑战跨越理论基础、技术实现和实用部署，包括缺乏统一理论框架、扩展局限性和安全考虑。

展望未来，上下文工程注定在AI发展中扮演日益中心角色，随着领域向复杂、多组件系统前进。上下文工程的跨学科性质需要跨越计算机科学、认知科学、语言学和特定领域专长的协作研究方法。

随着LLM继续演进，上下文工程的基本见解——AI系统性能从根本上由上下文信息决定——将保持人工智能发展的中心。本综述提供当前状态的综合快照和未来研究路线图，将上下文工程确立为具有自身原则、方法和挑战的独特学科，以促进创新并支持上下文感知AI系统的负责任开发。

题目：A Survey of Context Engineering for Large Language Models
作者：Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu
时间：21 Jul 2025
链接：https://arxiv.org/abs/2507.13334
链接：https://github.com/Meirtz/Awesome-Context-Engineering

本文转载自Andy730，作者：常华

标签

大型语言

模型

上下文工程

已于2025-8-6 06:52:57修改

社区头条

51CTO

51CTO博客

51CTO学堂

大型语言模型的上下文工程（Context Engineering）综述 精华

摘要

1. 引言

2. 相关工作

基础组件

系统实现

评估

我们的贡献

3. 为什么需要上下文工程？

3.1. 上下文工程的定义

上下文工程的优化问题

数学原理与理论框架

范式比较

上下文扩展（Context Scaling）

3.2. 为什么需要上下文工程

3.2.1. 当前局限性

3.2.2. 性能提升

3.2.3. 资源优化

3.2.4. 未来潜力

4. 基础组件

4.1. 上下文检索与生成

4.1.1. 提示工程与上下文生成

零样本与少样本学习范式

思考链基础

认知架构整合

4.1.2. 外部知识检索

检索增强生成基础

知识图谱整合与结构化检索

代理式与模块化检索系统

4.1.3. 动态上下文组装

组装函数与编排机制

多组件整合策略

自动化组装优化

4.2. 上下文处理

4.2.1. 长上下文处理

长上下文的架构创新

位置插值与上下文扩展

高效处理优化技术

内存管理与上下文压缩

4.2.2. 上下文自我优化与适应

基础自我优化框架

元学习与自主进化

内存增强适应框架

长思考链与高级推理

4.2.3. 多模态上下文

多模态上下文整合

基础技术

高级整合策略

多模态上下文处理的核心挑战

模态偏差与推理缺陷

高级上下文能力与未来方向

在上下文与长上下文学习

新兴应用

4.2.4. 关系与结构化上下文

知识图谱嵌入与神经整合

语言化与结构化数据表示

整合框架与协同方法

应用与性能增强

4.3. 上下文管理

4.3.1. 基本约束

4.3.2. 内存层次结构与存储架构

4.3.3. 上下文压缩

4.3.4. 应用

5. 系统实现

5.1. 检索增强生成

5.1.1. 模块化RAG架构

5.1.2. 代理式RAG系统

5.1.3. 图增强RAG

5.1.4. 应用

5.2. 内存系统

5.2.1. 内存架构

内存分类框架

短期内存机制

长期内存实现

内存访问模式和结构

5.2.2. 内存增强代理

代理架构整合

大型语言模型的上下文工程（Context Engineering）综述精华