LLM 上下文窗口越大越好？错了，用这 6 招给你的 AI Agent「瘦身」

草台AI

发布于 2025-8-7 06:33

浏览

0收藏

从 Gemini 2.5 Pro 的百万级窗口，到 Llama 4 Scout 震撼的千万级 Token，模型的上下文（Context）竞赛似乎永无止境。

这很容易让人产生一种错觉：「管他呢，把所有资料都扔进去就行了」。

但 Andrej Karpathy 一语道破天机：构建 LLM 应用的艺术，在于学会「恰到好处地填充上下文窗口」。

如果把上下文当成一个杂物抽屉，那你得到的也只会是垃圾。一个臃肿、混乱的上下文不仅会拉低模型表现，甚至会导致它「精神错乱」，出现以下几种典型「翻车」现场：

上下文中毒 (Context Poisoning):一个错误或幻觉进入上下文，被模型反复引用，毒化后续所有输出。
上下文分心 (Context Distraction):上下文太长，导致模型过度关注历史信息，而忽略了自身训练中学到的知识。
上下文混淆 (Context Confusion):无关信息太多，模型被带偏，生成低质量回复。
上下文冲突 (Context Clash):新加入的信息或工具与上下文中的既有内容产生矛盾。

问题的本质是信息管理。上下文中的每一个 Token 都在影响模型的输出。好在，我们有的是办法。

这里有 6 个立竿见影的上下文管理策略，能帮你打造出更聪明、更高效的 AI Agent。

1. RAG：只给模型它真正需要的

全称：Retrieval-Augmented Generation (检索增强生成)
核心：在生成回答前，先精准地检索出最相关的信息，喂给模型。

每次有新的长上下文模型发布，「RAG 已死」的论调就会卷土重来。但事实是，RAG 依然是信息管理的基石。简单粗暴地塞入全部文档，只会让模型在信息垃圾堆里迷失方向。

思维方式： 不要指望模型能自动忽略无关信息，你需要主动进行预处理，把最精炼的知识递到它嘴边。这就像开卷考试，你不会带一整座图书馆，而是只带几页写满核心考点的「小抄」。

2. Tool Loadout：为任务量身打造「武器库」

核心：根据当前任务，动态选择最相关的工具（Tool）定义，加载到上下文中。

「Loadout」是个游戏术语，指玩家在进入关卡前，根据情况选择最佳的武器和装备组合。构建 Agent 也是同理。

当工具数量超过 30 个时，模型就开始「犯迷糊」；超过 100 个，几乎必然出错。研究表明，通过 RAG 的方式为工具描述建立索引，根据用户指令动态挑选出少于 30 个最相关的工具，能将工具选择的准确率提升高达 3 倍。

即使在未能提升准确率的场景下，精简工具也能带来 18% 的功耗节省和 77% 的速度提升——这在端侧设备上至关重要。

思维方式： 工具不是越多越好，而是越准越好。给模型一个精简、定制化的「工具箱」，而不是一个大而全的五金店。

3. Context Quarantine：用「隔离舱」避免交叉感染

核心：将复杂的任务分解成多个独立的子任务，每个子任务在自己的「隔离」上下文中运行。

Anthropic 的一项研究展示了这种策略的威力。当被要求识别标普 500 信息技术公司所有董事会成员时，单个 Agent 连续搜索，最终失败。而多 Agent 系统则将任务分解，让多个「子 Agent」并行在各自独立的上下文中进行搜索，最后汇总结果。

结果如何？这种多 Agent 系统的表现超越了单个顶级 Agent 90.2%。

思维方式： 化整为零，分而治之。通过隔离上下文，可以防止信息交叉污染，实现并行处理，大幅提升复杂任务的处理效率和质量。这本质上是为 AI 引入了「分工协作」的现代工作流。

4. Context Pruning：定期「修剪」信息枝叶

核心：从上下文中主动识别并移除不相关或不再需要的信息。

随着 Agent 与用户互动，上下文会不断累积。此时需要一个「园丁」角色，定期修剪掉多余的「枝叶」。你可以让主 LLM 来做，也可以设计一个专门的 LLM 工具来审查和编辑上下文。

一个名为 Provence 的模型，可以高效地完成这项任务。在一次测试中，它将一篇维基百科文章压缩了 95% 的内容，只留下了与问题直接相关的核心信息。

思维方式： 保持上下文的结构化和动态性。将上下文视为一个需要维护的花园，而不是一个只进不出的仓库。定期清理，才能保证核心信息始终处于「C 位」。

5. Context Summarization：把对话历史「压缩」成摘要

核心：将冗长的上下文内容提炼成一个简洁的摘要。

这最初是为了解决早期模型窗口限制的无奈之举，但现在有了新的意义——避免「上下文分心」。Google Brain 团队在训练一个玩《宝可梦》的 Gemini Agent 时发现，当上下文超过 10 万 Token 后，Agent 倾向于重复历史行为，而不是创造新策略。

通过定期生成摘要来替代冗长的对话历史，可以帮助模型「忘记」不必要的细节，重新聚焦于核心目标。

思维方式： 摘要不仅是压缩，更是「重聚焦」。它帮助模型摆脱路径依赖，为更具创造性的多步推理保留宝贵的「注意力」资源。

6. Context Offloading：给模型一个「草稿纸」

核心：将信息存储在上下文之外，通过工具来管理和访问。

这是我最喜欢的策略，因为它简单到让你不敢相信它会有效。

Anthropic 将其称为「think」工具，但你完全可以把它理解为一个给 LLM 用的「草稿纸 (Scratchpad)」。模型可以将中间步骤、思考过程、工具调用结果等临时记录在这个「草稿纸」上，而不污染主上下文。

当需要时，模型可以回头查阅笔记。这在处理需要多步推理、严格遵守指令或决策成本高昂的任务时尤其有效。数据显示，这种方法能将专用 Agent 的基准测试表现提升高达 54%。

思维方式： 将模型的「工作记忆」和「长期记忆」分离开。主上下文是用于最终决策的「工作台」，而草稿纸则是用于思考和推演的「白板」，让工作台永远保持整洁。

总结：上下文不是免费的

构建 AI Agent 最难的部分，往往就是上下文管理。

现代 LLM 巨大的上下文窗口是一种强大的能力，但绝不是我们懒惰的借口。上述所有策略都指向一个核心洞察：上下文中的每一个 Token 都不是免费的，它有好有坏，都在影响模型的行为。

在你构建下一个 Agent 或优化现有 Agent 时，不妨问问自己：

上下文里的每一条信息，都对得起它所占的位置吗？

如果答案是否定的，现在你知道该怎么做了。

原文地址：https://www.dbreunig.com/2025/06/26/how-to-fix-your-context.html

本文转载自草台AI，作者：RangerEX

标签

LLM

上下文

窗口

相关推荐

用短输入模拟长样本，高效拓展LLM上下文窗口，北大联合MSRA提出PoSE

kcoufee • 3941浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 4011浏览 • 0回复
LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

duhorse • 4379浏览 • 0回复
百万上下文RAG，Agent还能这么玩

ermulong • 4499浏览 • 0回复
LLM超长上下文查询-性能评估实战

ermulong • 3830浏览 • 0回复
AI编程初创公司挑战1亿上下文窗口，编码能力超级加倍！

51CTO技术栈 • 4716浏览 • 0回复
在长上下文LLM的时代，RAG是否仍然必要？

sbf_2000 • 3436浏览 • 0回复
智能决策进化之路：从长上下文LLM到自主RAG系统

Halo咯咯 • 4585浏览 • 0回复
基于Agent的金融问答系统：RAG的检索增强之上下文重排和压缩

一起AI技术 • 3334浏览 • 0回复
大模型超长窗口上下文与检索增强生成——RAG

AI探索时代 • 3712浏览 • 0回复
Claude的MCP（模型上下文协议）简介

Halo咯咯 • 6759浏览 • 0回复
LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍

AIPaperDaily • 3850浏览 • 0回复
AI 编程必备：用 Cline 的四个命令实现无缝上下文管理

凝固的雨_1 • 1.1w浏览 • 0回复
LLM 上下文管理：智能应用的核心竞争力

草台AI • 2682浏览 • 0回复
驳“RAG 已死”论：上下文窗口扩展≠RAG 终结

Baihai_IDP • 1647浏览 • 0回复
大语言模型Agent上下文工程综述：AI 的 “上下文密码” ，从提示词到多智能体，这篇综述讲透了

十一月雨_55 • 1769浏览 • 0回复
关于大模型窗口大小的思考——上下文工程和提示词工程

AI探索时代 • 1692浏览 • 0回复
微软：LLM上下文学习并非真的学习！

PaperAgent • 559浏览 • 0回复
Chroma：上下文退化-增加输入 Tokens 长度对 LLM 性能的影响

AI取经路 • 864浏览 • 0回复

草台AI

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂