别再信「百万 token」了，我们扒了 18 个大模型，发现长文本的惊天秘密精华

发布于 2025-7-22 06:51

浏览

0收藏

近些年，大模型圈子最火的词莫过于「百万 token 上下文」。

从 Google Gemini 1.5 Pro 到 GPT-4.1，再到 Llama 4，各大厂商仿佛在一场技术军备竞赛中，疯狂地把模型的「内存」撑大。这让你我这样的普通用户兴奋不已：这不就意味着，我可以直接把一整本书、几百页的财报、甚至是整个项目代码库扔给 AI，让它瞬间消化，然后对答如流吗？

理论上是这样。而且，在经典的 NIAH (Needle in a Haystack，即「大海捞针」) 测试中，这些模型也确实表现得像个超级学霸，几乎每次都能精准地从海量文本中找到那根「针」。

但是，先别急着开香槟。 🍾

最近，一篇“魔鬼级”的深度研究报告，把市面上 18 个主流大模型（包括你熟悉的所有明星产品）拉过来，进行了一场前所未有的长文本「极限施压测试」。

结论非常颠覆：所谓「长文本能力」，远比我们想象的要脆弱。

简单来说，当任务稍微变得复杂一点，这些 AI 天才们的表现，就像是坐上了过山车，一路往下掉。🤯

「大海捞针」测试，其实是个「伪学霸」鉴定器？

你可能要问，经典的「大海捞针」测试不是证明它们很强吗？

没错，NIAH 测试就是在一大堆无关文字（草堆）里，藏一句关键信息（针），然后让 AI 找出来。

这就像是开卷考试，让你在书里找原话，AI 当然能拿满分。但这篇研究一针见血地指出：真实世界的问题，从来都不是找原话那么简单。

于是，研究团队设计了一系列“进阶版”测试，只为了回答一个问题：当输入的文本越来越长，AI 的“智商”到底会不会下降？

四场极限挑战，AI 的“人设”崩了

研究者们设计了四种极其巧妙的玩法，把 AI 的长文本能力扒了个底朝天。

1. 问题越绕，模型越懵

如果问题和答案不是简单的「复制粘贴」，而是需要 AI 稍微“拐个弯”去理解呢？

研究团队设计了不同语义相似度的问题和「针」。结果发现，当问题和答案的字面意思差别越大，AI 的表现就越差。上下文越长，这种性能衰退就越严重。

A 君说：这就像你让朋友去书架上帮你拿「那本蓝色的书」，他很容易找到。但如果你说「帮我拿那本讲星际旅行的科幻经典」，他可能就要在书架前懵圈半天了。

2. 扔几个「烟雾弹」，AI 立刻“叛变”

真实世界里，信息往往不是非黑即白，总有很多模棱两可的“干扰项”。

研究者在「草堆」里，除了藏着真正的「针」，还放了几个和「针」长得很像，但却是错误的「烟雾弹」（Distractors）。

结果你猜怎么着？

哪怕只放一个「烟雾弹」，AI 的准确率就开始下降。放四个，性能直接“跳水”。而且，文本越长，AI 就越容易被带跑偏。

更有趣的是，不同模型的“性格”也暴露无遗：

保守派 Claude遇到不确定的情况，它会非常诚实地说：「对不起，信息太模糊，我找不到答案。」（虽然没答对，但至少没骗你）
头铁幻觉派 GPT它总是那么自信，哪怕是被「烟雾弹」骗了，也会理直气壮地给出一个错误答案。（最怕的就是这种）

3. 文本太“和谐”，反而找不到重点？

如果「针」的内容和「草堆」的背景文章主题非常相似，AI 是更容易找到，还是更难？

实验结果有点出乎意料，没有统一的规律。有时候，「针」和背景文章格格不入（比如在技术论文里藏一句写诗的技巧），AI 反而更容易发现它。

A 君说：这说明 AI 处理的上下文并非“中性填充物”，内容本身会影响它的判断力。

4. 最反直觉的发现来了：打乱顺序，成绩反而更好？！

这是整篇报告中最骚，也最让人大跌眼镜的发现。

研究者把「草堆」文章的句子全部打乱，破坏了原文的逻辑和连贯性。按理说，这应该会加大 AI 的处理难度吧？

结果恰恰相反！

几乎所有模型，在处理这些“被打乱的、不讲逻辑”的文本时，表现都比处理原文时更好。

为什么？研究者推测，可能是连贯的文本结构以某种方式“催眠”了 AI 的注意力机制，让它顺着逻辑流“飘”了过去，反而忽略了插入其中的「针」。而混乱的文本，则迫使 AI 对每一句话都进行独立审查，更容易发现异常。

真实世界模拟：AI 的记忆力只有七秒？

除了「大海捞针」，研究者还模拟了两个真实场景。

场景一：长对话聊天

让 AI 记住长达十几万字的聊天记录，然后回答一个关于其中细节的问题。同时设置了一个对比组，只给 AI 看了包含答案的那一小段话。

结果毫无悬念：所有模型在只看“重点摘要”时都是学霸，但一旦面对完整的“聊天史”，成绩立刻一落千丈。

场景二：「复读机」任务

这是一个看似无脑的任务：让 AI 精确地复制一段超长的、由同一个词组成的文本，比如「苹果苹果苹果...」，其中只有一个词被换成了「香蕉」。

这考验的是 AI 在长输入、长输出任务下的稳定性和精确性。

结果，AI 们的表现简直是大型翻车现场：

有的直接罢工，拒绝回答。
有的复读到一半，就开始胡言乱语。
还有的干脆把那个唯一的「香蕉」给忘了，或者放错了位置。

▲ 随着文本变长，Gemini 的表现越来越不稳定

A 君说：这说明，别说让 AI 理解长文本了，有时候，让它原封不动地“搬运”长文本都做不到。

写在最后：别迷信参数，要敬畏「上下文」

这项研究给我们所有 AI 用户和开发者敲响了警钟。

「百万 token」的上下文窗口固然是了不起的技术进步，但它绝不等于模型就能完美地利用这些信息。AI 的长文本能力，目前还是一个脆弱、不稳定且充满未知的领域。

这给我们带来了最重要的启示——「上下文工程」 (Context Engineering) 的时代来了。

对于开发者和重度用户来说，成功的关键不再是简单粗暴地把所有信息都「喂」给 AI。而是要像一位高明的导演，精心设计信息在上下文中的呈现方式：

关键信息应该放在哪里？（研究表明开头和结尾效果最好）
如何减少干扰信息？
如何构建提示词（Prompt）才能让 AI 更容易理解？

下一次，当你发现你的 AI 在处理长文档时胡说八道，别急着骂它“人工智障”。

想想看，是不是你给它的“剧本”，还不够好？💡

原文地址：https://research.trychroma.com/context-rot

本文转载自草台AI，作者：RangerEX

标签

token

大模型

相关推荐

抱抱脸Open了OpenAI的秘密武器，网易参与复现

Crystalcxt • 3341浏览 • 0回复
被Luma刷屏了！零成本上手做大片的时代已至！惊奇发现：背后的技术与Sora大有不同！

51CTO技术栈 • 4794浏览 • 0回复
你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

angel • 3731浏览 • 0回复
将图像自动文本化，图像描述质量更高、更准确了

轻薄滴假象 • 3156浏览 • 0回复
MemLong：用于长文本建模的记忆增强检索

sbf_2000 • 3440浏览 • 0回复
大模型长文本所面临的主要问题

AI探索时代 • 4575浏览 • 0回复
再谈大模型长文本分块，以及分块在RAG中的作用？

AI探索时代 • 4591浏览 • 0回复
别再将LLM当成数据库了

51CTO内容精选 • 3340浏览 • 0回复
Kimi的长文本能力：为何优于其他大模型

风云2002_1 • 3607浏览 • 0回复
当微信支持 DeepSeek 后，完全实现了生态全闭环，你想象不到有多好用！

wsp_ping • 3742浏览 • 0回复
秒开率从 18% 到 64%，我们对小程序模拟器做了什么？

快手技术 • 2665浏览 • 0回复
别再手动调API了！5分钟让你的AI模型拥有"超能力"！MCP协议深度解析和实操

AI博物院 • 4111浏览 • 0回复
谷歌：我们的TPU烫麻了，简直火上浇油！皮查伊：我们是SOTA！

51CTO技术栈 • 2598浏览 • 0回复
扒一扒最近较火的MCP

鲁班模锤1 • 2959浏览 • 0回复
别再只知道“请帮我写…”了，看看谷歌如何解构 Prompt Engineering

草台AI • 2488浏览 • 0回复
API专供的“开发者福音”，价格打下来了！小而强大，百万token上下文，GPT-4.5尴尬了

51CTO技术栈 • 2457浏览 • 0回复
2025年必备的八种AI模型：别再把所有AI都叫LLM了！

Halo咯咯 • 4455浏览 • 0回复
实测百万token上下文模型MiniMax-M1：RAG真的要被淘汰了？

云中江树 • 1938浏览 • 0回复
别再踩坑了！这 10 个低成本开源 AI 智能体好使

PyTorch研习社 • 3410浏览 • 0回复

草台AI

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂