别再信「百万 token」了,我们扒了 18 个大模型,发现长文本的惊天秘密 精华

发布于 2025-7-22 06:51
浏览
0收藏

近些年,大模型圈子最火的词莫过于「百万 token 上下文」。

从 Google Gemini 1.5 Pro 到 GPT-4.1,再到 Llama 4,各大厂商仿佛在一场技术军备竞赛中,疯狂地把模型的「内存」撑大。这让你我这样的普通用户兴奋不已:这不就意味着,我可以直接把一整本书、几百页的财报、甚至是整个项目代码库扔给 AI,让它瞬间消化,然后对答如流吗?

理论上是这样。而且,在经典的 NIAH (Needle in a Haystack,即「大海捞针」) 测试中,这些模型也确实表现得像个超级学霸,几乎每次都能精准地从海量文本中找到那根「针」。

但是,先别急着开香槟。 🍾

最近,一篇“魔鬼级”的深度研究报告,把市面上 18 个主流大模型(包括你熟悉的所有明星产品)拉过来,进行了一场前所未有的长文本「极限施压测试」。

结论非常颠覆:所谓「长文本能力」,远比我们想象的要脆弱。

简单来说,当任务稍微变得复杂一点,这些 AI 天才们的表现,就像是坐上了过山车,一路往下掉。🤯

「大海捞针」测试,其实是个「伪学霸」鉴定器?

你可能要问,经典的「大海捞针」测试不是证明它们很强吗?

没错,NIAH 测试就是在一大堆无关文字(草堆)里,藏一句关键信息(针),然后让 AI 找出来。

这就像是开卷考试,让你在书里找原话,AI 当然能拿满分。但这篇研究一针见血地指出:真实世界的问题,从来都不是找原话那么简单。

于是,研究团队设计了一系列“进阶版”测试,只为了回答一个问题:当输入的文本越来越长,AI 的“智商”到底会不会下降?

四场极限挑战,AI 的“人设”崩了

研究者们设计了四种极其巧妙的玩法,把 AI 的长文本能力扒了个底朝天。

1. 问题越绕,模型越懵 

如果问题和答案不是简单的「复制粘贴」,而是需要 AI 稍微“拐个弯”去理解呢?

研究团队设计了不同语义相似度的问题和「针」。结果发现,当问题和答案的字面意思差别越大,AI 的表现就越差。上下文越长,这种性能衰退就越严重。

A 君说:这就像你让朋友去书架上帮你拿「那本蓝色的书」,他很容易找到。但如果你说「帮我拿那本讲星际旅行的科幻经典」,他可能就要在书架前懵圈半天了。

2. 扔几个「烟雾弹」,AI 立刻“叛变”

真实世界里,信息往往不是非黑即白,总有很多模棱两可的“干扰项”。

研究者在「草堆」里,除了藏着真正的「针」,还放了几个和「针」长得很像,但却是错误的「烟雾弹」(Distractors)。

结果你猜怎么着?

哪怕只放一个「烟雾弹」,AI 的准确率就开始下降。放四个,性能直接“跳水”。而且,文本越长,AI 就越容易被带跑偏。

更有趣的是,不同模型的“性格”也暴露无遗:

  • 保守派 Claude遇到不确定的情况,它会非常诚实地说:「对不起,信息太模糊,我找不到答案。」(虽然没答对,但至少没骗你)
  • 头铁幻觉派 GPT它总是那么自信,哪怕是被「烟雾弹」骗了,也会理直气壮地给出一个错误答案。(最怕的就是这种)

3. 文本太“和谐”,反而找不到重点?

如果「针」的内容和「草堆」的背景文章主题非常相似,AI 是更容易找到,还是更难?

实验结果有点出乎意料,没有统一的规律。有时候,「针」和背景文章格格不入(比如在技术论文里藏一句写诗的技巧),AI 反而更容易发现它。

A 君说:这说明 AI 处理的上下文并非“中性填充物”,内容本身会影响它的判断力。

4. 最反直觉的发现来了:打乱顺序,成绩反而更好?!

这是整篇报告中最骚,也最让人大跌眼镜的发现。

研究者把「草堆」文章的句子全部打乱,破坏了原文的逻辑和连贯性。按理说,这应该会加大 AI 的处理难度吧?

结果恰恰相反!

几乎所有模型,在处理这些“被打乱的、不讲逻辑”的文本时,表现都比处理原文时更好。

为什么?研究者推测,可能是连贯的文本结构以某种方式“催眠”了 AI 的注意力机制,让它顺着逻辑流“飘”了过去,反而忽略了插入其中的「针」。而混乱的文本,则迫使 AI 对每一句话都进行独立审查,更容易发现异常。

真实世界模拟:AI 的记忆力只有七秒?

除了「大海捞针」,研究者还模拟了两个真实场景。

场景一:长对话聊天

让 AI 记住长达十几万字的聊天记录,然后回答一个关于其中细节的问题。同时设置了一个对比组,只给 AI 看了包含答案的那一小段话。

结果毫无悬念:所有模型在只看“重点摘要”时都是学霸,但一旦面对完整的“聊天史”,成绩立刻一落千丈。

场景二:「复读机」任务

这是一个看似无脑的任务:让 AI 精确地复制一段超长的、由同一个词组成的文本,比如「苹果 苹果 苹果...」,其中只有一个词被换成了「香蕉」。

这考验的是 AI 在长输入、长输出任务下的稳定性和精确性。

结果,AI 们的表现简直是大型翻车现场:

  • 有的直接罢工,拒绝回答。
  • 有的复读到一半,就开始胡言乱语。
  • 还有的干脆把那个唯一的「香蕉」给忘了,或者放错了位置。

▲ 随着文本变长,Gemini 的表现越来越不稳定

A 君说:这说明,别说让 AI 理解长文本了,有时候,让它原封不动地“搬运”长文本都做不到。

写在最后:别迷信参数,要敬畏「上下文」

这项研究给我们所有 AI 用户和开发者敲响了警钟。

「百万 token」的上下文窗口固然是了不起的技术进步,但它绝不等于模型就能完美地利用这些信息。AI 的长文本能力,目前还是一个脆弱、不稳定且充满未知的领域。

这给我们带来了最重要的启示——「上下文工程」 (Context Engineering) 的时代来了。


对于开发者和重度用户来说,成功的关键不再是简单粗暴地把所有信息都「喂」给 AI。而是要像一位高明的导演,精心设计信息在上下文中的呈现方式

  • 关键信息应该放在哪里?(研究表明开头和结尾效果最好)
  • 如何减少干扰信息?
  • 如何构建提示词(Prompt)才能让 AI 更容易理解?

下一次,当你发现你的 AI 在处理长文档时胡说八道,别急着骂它“人工智障”。

想想看,是不是你给它的“剧本”,还不够好?💡

原文地址:​​​https://research.trychroma.com/context-rot​

本文转载自​​​​​​草台AI​​​​​​,作者:RangerEX

收藏
回复
举报
回复
相关推荐