
大模型的脑子会烂掉!而且不能自愈!华人研究论文火了:连续喂垃圾内容,再聪明的模型也变笨,而且自恋
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
我们每天刷到的那些情绪化标题、碎片化内容、互怼式评论,可能不只是让人变蠢。最新研究发现——连续几个月让AI刷这些数据,AI也会被带坏。
什么是“AI 脑腐”?
美国德州大学研究团队最近提出了一个大胆的新假说:大语言模型脑腐假说!
LLM Brain Rot Hypothesis
意思是:如果一个大模型长期训练在“垃圾互联网文本”上:比如标题党、吵架贴、情绪宣泄文、AI 自动生成的废话,它的思考能力会持续退化,甚至出现人格偏差。
换句话说,AI 也会“被环境熏坏”,就像人长时间沉迷短视频,会注意力变差、逻辑变乱。
图片
代码开源地址:https://llm-brain-rot.github.io/
论文地址:https://www.arxiv.org/abs/2510.13928
他们怎么验证的?
研究团队挑了四个大型语言模型,在真实的 Twitter/X 数据上做了对照实验:
- 一组喂“高质量内容”(信息密度高、逻辑清晰)
- 一组喂“垃圾内容”(高互动但无营养)
图片
细节上具体看,为了隔离“数据质量”这一变量,团队在真实的 Twitter/X 语料上进行了对照实验,通过两种独立的标准构建了“垃圾数据集”和“对照数据集”:M1(互动度指标)和 M2(语义质量指标)。两种条件下的数据规模和训练方式保持一致。
结果很扎心!长期“吃垃圾内容”的那组模型,在推理、理解、安全性上表现出全面下滑。
图片
甚至出现出向暗黑人格的偏移——更自恋、更冲动、更像“带情绪的网友”。
与对照组相比,使用垃圾数据持续预训练的四个模型在推理能力、长文本理解、安全性方面出现显著退化(效应量 Hedges g > 0.3),并表现出更强的“黑暗人格特征”(如精神病倾向、自恋等)。
图片
AI 变笨的“剂量效应”
此外,论文中有个特别形象的“慢性中毒”现象:当训练数据中混入不同比例的垃圾文本时,模型表现也呈现“剂量-反应式”衰退。
当“垃圾文本”占比从 0% 增加到 100%,模型在推理测试(ARC-Challenge)中的得分,从 74.9 掉到 57.2。另一项指标 RULER-CWE 也从 84.4 掉到 52.3。
也就是说,喂得越多,退化越严重。它不是瞬间坏掉,而是像糖吃多了,智力慢慢滑坡。
在剂量反应测试中,M1(互动度)干预对推理和长上下文能力的影响比 M2(语义质量)干预更为显著。
图片
为什么?脑子烂掉的AI 开始“跳过思考”
研究者在分析模型输出时,发现最常见的退化症状是:“Thought-skipping”——思维懒惰症。
模型越来越倾向于直接给结论,不再推理。一句话总结:它懒得思考了。这就像人类在信息流环境下失去了耐心,只看结果,不想过程。
图片
他们发现,大多数失败可归因于“思维懒惰症”,例如模型未能生成中间的推理步骤等,这种情况在受「脑腐」影响的模型中显著增加。
能治好吗?
团队的结论是,可以部分恢复,但治不好。即便后来再用干净数据或指令微调去修复,模型也很难回到原本的能力水平——它会留下“认知疤痕”。
图片
此外,团队还发现,反思有助于大模型减少思维跳跃。然而,他们还指出:如果没有来自更强大模型的外部反馈,自我反省也会增加事实错误。
结论:AI 也需要“认知体检”
论文最后提出一个新观点:
“数据质量不仅影响模型效果,更是训练安全问题。”
就像人类需要心理健康检查,AI 未来也需要定期认知体检,防止长期喂垃圾导致“系统性脑腐”。
本文转载自51CTO技术栈,作者:云昭
