打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析

发布于 2025-10-14 00:19

浏览

0收藏

大型语言模型（LLM）的预训练过程，长期以来被视为一个“黑箱”。尽管我们知道通过在海量数据上进行训练，模型能够涌现出惊人的能力，但其内部知识结构是如何从无到有、从简单到复杂地逐步构建起来的，这一核心问题至今仍缺乏清晰的答案。近期，复旦moss团队的一篇题为《语言模型预训练中概念的演变》的预印本论文，为我们揭开这个黑箱的一角提供了全新的、极具洞察力的参考。

这项研究的核心贡献在于，它首次将一种名为“Crosscoders”的稀疏字典学习方法应用于追踪语言模型在整个预训练过程中的“特征演化”动态。通过这种方法，研究者得以在微观层面观察到模型内部成千上万个可解释“概念”（即特征）的诞生、发展、旋转乃至消亡的全过程。研究不仅揭示了特征演化的普遍规律，还将这些微观变化与模型在下游任务中的宏观性能表现建立了直接的因果联系。更重要的是，研究为“语言模型学习分为两个主要阶段”这一理论假说提供了强有力的实证支持：即模型首先进入一个快速学习数据统计规律的统计学习阶段，随后过渡到一个构建复杂、叠加特征的特征学习阶段。

核心方法论：利用Crosscoders追踪特征演化

为了实现对模型内部特征演化的细粒度追踪，研究者必须解决两个核心技术挑战：先是如何从模型高维、密集的激活向量中抽取出人类可理解的、单一语义的特征（Monosemantic Features）；然后如何确保在模型参数不断更新的成百上千个训练快照（Snapshots）之间，能够稳定地识别并追踪同一个特征。该研究巧妙地通过引入并改造Crosscoders方法，为这两个挑战提供了统一的解决方案。

技术背景：稀疏编码与特征可解释性

在深入理解Crosscoders之前，有必要先了解其理论基础——稀疏自动编码器（Sparse Autoencoders, SAEs）与叠加（Superposition）假说。

现代神经网络，尤其是大型语言模型，其内部的神经元激活值通常是“多义性”的（Polysemantic），即单个神经元的激活可能同时代表多种不相关的概念。与之相对，“叠加假说”指出，模型为了在有限的神经元数量下表征无限丰富的现实世界概念，会将多个概念“叠加”在同一个激活子空间中，通过线性组合的方式来表示。换言之，真正的、单一语义的“特征”并非对应单个神经元，而是对应于激活空间中的特定“方向”。

稀疏自动编码器（SAE）正是为了解决这一问题而设计的。它是一种特殊的神经网络，由一个编码器（Encoder）和一个解码器（Decoder）组成。其目标是学习将模型内部的激活向量 a(x) 分解为一组稀疏的、大部分为零的特征激活值 f(x)，然后用这组稀疏的 f(x) 和一个“字典”（Decoder权重矩阵）来尽可能精确地重构出原始的激活向量 â(x)。通过在损失函数中加入一个强大的稀疏性惩罚项（如L1或L0范数），SAE被激励去发现那些真正有意义的、单一语义的特征方向。当某个特定概念（如“与编程相关的上下文”）出现时，只有字典中对应这个概念的那个特征会被激活，从而实现了从多义性神经元到单义性特征的解耦。

然而，传统的SAE只能针对单个、已经训练完成的模型进行分析。如果为每个训练快照都单独训练一个SAE，我们将得到一系列独立的特征字典，这些字典中的特征顺序和方向都是随机的，无法直接进行跨快照的比较和追踪。这就引出了该研究的核心方法创新。

Cross-snapshot Crosscoder架构与训练

研究者创造性地改造了Crosscoders这一工具，将其从最初用于分析模型“跨层”特征的工具，转变为分析模型“跨时间快照”特征的利器。这种“跨快照Crosscoder”的设计精妙之处在于它拥有一个共享的编码器和一个分离的解码器。

具体架构如下：对于来自不同训练快照 θ 的同一段文本 x 在同一网络层的激活 aθ(x)，Crosscoder的目标是：

共享编码与特征空间：所有快照的激活aθ(x) 首先通过各自的快照专属编码器Wθ_enc 进行编码，然后汇总并经过一个激活函数σ，最终产生一个所有快照共享的稀疏特征激活向量f(x)。这个共享的f(x) 是关键，它构建了一个统一的特征空间，使得在快照0中激活的第i 个特征，与在快照100中激活的第i 个特征，指向的是同一个潜在概念。
独立解码与重构：接着，这个共享的特征向量f(x) 会被送入每个快照各自独立的解码器Wθ_dec 中，以重构出对应快照的原始激活âθ(x)。

其训练目标函数（公式2）包含两个核心部分：

重构损失：要求所有快照的重构激活âθ(x) 与原始激活aθ(x) 之间的L2距离之和最小。这保证了解码器能够忠实地恢复原始信息。
稀疏性损失：这是实现特征可解释性的关键。研究采用了一种高级的稀疏性惩罚策略，它不仅惩罚非零特征的数量（L0正则化），还将解码器范数||Wθ_dec,i|| 纳入考量。这个设计的动机是防止模型“作弊”——即通过缩小特征激活值fi(x) 同时放大解码器范数||Wθ_dec,i|| 来绕过稀疏性惩罚。

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

此外，为了获得高质量的稀疏特征，研究在附录A中详细阐述了其对激活函数和正则化函数的精心选择。他们摒弃了传统的ReLU激活函数，转而采用JumpReLU，该函数通过学习一个阈值来过滤掉微弱的、可能是噪声的激活，从而得到更干净、更稀疏的特征。正则化方面，则结合了tanh和二次频率惩罚，既能更好地逼近L0范数，又能抑制那些过于频繁激活的“垃圾”特征。这些技术细节共同确保了Crosscoder能够高效且稳定地提取出高质量的、跨时间对齐的特征。 (图 1, 图 8, 图 9, 表 1)

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

解码器范数：特征强度的代理指标

跨快照Crosscoder架构带来了一个至关重要的副产品，也是该研究进行特征演化分析的基石：特定快照 θ 下的第 i 个特征的解码器范unorm ||Wθ_dec,i||，可以直接作为该特征在该快照中“存在感”或“强度”的代理指标。

其背后的逻辑非常直观：在Crosscoder的优化过程中，如果某个特征 i 在快照 θ 中并不存在或非常微弱，那么在重构该快照的激活时，这个特征的激活值 fi(x) 几乎不起作用。为了最小化稀疏性损失（该损失与 fi(x) 和 ||Wθ_dec,i|| 的乘积相关），模型会倾向于将这个无关特征在该快照下的解码器范数 ||Wθ_dec,i|| 压缩至接近于零。反之，如果一个特征对于重构至关重要，其解码器范数就会很大。

因此，通过追踪每个特征 i 的解码器范数 ||Wθ_dec,i|| 在所有训练快照 θ 上的变化曲线，研究者就得到了一条清晰的、量化的“特征演化轨迹”。研究在附录C中通过线性探针实验进一步验证了这一假设，结果显示探针的分类错误率与解码器范数呈现出高达-0.867的强负相关性，有力地证明了解码器范数作为特征强度代理指标的有效性。 (图 13)

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

特征演化的宏观图景与微观动力学

借助上述强大的分析工具，研究者对Pythia-160M和Pythia-6.9B两个模型的预训练过程进行了深入剖析，样本覆盖了从训练开始到143,000步的32个关键快照。分析揭示了一幅壮观而细致的特征演化图景。

两类核心特征：初始化特征与涌现特征

通过随机采样大量特征并绘制它们的解码器范数演化曲线，研究者发现特征的演化路径主要呈现出两种截然不同的模式：

初始化特征 (Initialization Features)：这类特征在模型随机初始化的瞬间（step 0）就已经存在。它们的范数值在训练最开始（约step 128附近）会经历一个急剧下降然后恢复的过程，之后随着训练的进行而逐渐衰减。这表明，即使是随机初始化的神经网络，其激活空间中也已经天然存在某些结构，这些结构在训练初期被保留和调整。
涌现特征 (Emergent Features)：这是绝大多数特征所属的类别。它们在训练初期并不存在（解码器范数为零），而是在训练进行到某个特定阶段（主要集中在step 1000之后）开始“涌现”，其解码器范数从零开始快速增长，达到峰值后或保持稳定或缓慢变化。不同复杂度的特征，其涌现的时间点也各不相同。

这一发现本身就极具价值，它清晰地展示了模型内部的概念结构并非一蹴而就，而是遵循着特定的时间规律动态生成和演变的。 (图 3)

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

涌现特征的统计特性分析

为了更深入地理解特征的演化动力学，研究对“涌现特征”进行了多维度的统计分析，揭示了几个有趣的共性规律：

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

涌现时间的分布：特征的涌现并非均匀分布在整个训练过程中。统计显示，绝大多数特征的“峰值时刻”（解码器范数达到最大的快照）集中在训练的早期到中期阶段。特别是在Pythia-160M模型中，存在一个明显的涌现高峰期。 (图 4a)
特征的持久性：一旦一个特征涌现出来，它通常会非常“长寿”。研究定义了特征的“生命周期”（解码器范数大于0.3的快照比例），发现大部分涌现特征在形成后，会在超过60%的后续快照中保持活跃。这说明LLM能够稳健地保留已学习到的知识和能力，同时也证明了Crosscoder方法在跨快照追踪特征方面的鲁棒性。 (图 4b)
普遍的方向转折点：研究还从几何角度考察了特征向量（即解码器字典中的列向量）在训练过程中的方向变化。通过计算不同快照之间同一个特征向量的 cosine 相似度，他们发现了一个惊人的一致性：几乎所有涌现特征的方向在step 1,000附近都经历了一次剧烈的“转折”。在此之前和之后的特征方向几乎是相互正交的。而在step 1,000之后，特征方向的旋转变得平缓得多，即使到训练末期，其方向与刚涌现时的方向仍保持着显著的相似性。这暗示着step 1,000可能是一个模型学习机制发生根本性转变的关键节点。 (图 4c)

特征复杂性与涌现时间的关联

一个自然的猜想是：简单的特征是否会比复杂的特征更早出现？为了验证这一点，研究者采用了一种创新的自动化评估方法。他们随机抽取了100个涌现特征，利用大型语言模型（Claude Sonnet 4）作为“评估员”，根据每个特征激活最强的文本片段，为其复杂性打分（1分最简单，5分最复杂）。

评分结果与特征的峰值涌现时间进行关联分析后发现，两者之间存在一个中等强度的正相关关系（Pearson r = 0.309, p = 0.002）。这明确地表明，模型确实倾向于在训练后期学习和形成更加复杂的概念。例如，识别单个词或token的简单特征可能较早出现，而理解特定句法结构或上下文语境的复杂特征则需要更长的训练时间才能涌现。 (图 5a)

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

典型特征演化案例研究

为了让分析更具象，研究通过简单的规则匹配，在Pythia-6.9B模型中识别并追踪了几类在以往研究中被广泛讨论的典型特征：

前序词元特征 (Previous Token Features)：这类特征的激活仅依赖于其前一个token是什么。例如，无论上下文如何，只要前面是单词“the”，某个特征就会激活。
归纳特征 (Induction Features)：这类特征与模型的“上下文学习”能力密切相关，它们负责识别重复出现的模式，如在[A][B]...[A][B] 序列中，当第二个[A] 出现时激活，以帮助模型预测接下来的[B]。
上下文敏感特征 (Context-sensitive Features)：这类特征的激活依赖于更广泛的语境，例如，在一个讨论“计算机科学”的段落中，它们会持续激活。

通过追踪这三类特征的平均解码器范数演化轨迹，研究发现了一个清晰的“学习层级”：前序词元特征出现最早（约1,000-5,000步），其次是归纳特征，而最为复杂的上下文敏感特征则出现得最晚，且涌现的时间范围更广（主要在10,000-100,000步之间）。这一发现与它们的逻辑复杂度和依赖关系完全吻合（例如，归纳头的形成依赖于前序词元头），为模型从简单到复杂构建能力的假说提供了具体的案例支持。 (图 5b, 5c)

从微观特征到宏观行为：建立因果联系

机制可解释性研究的最终目标之一，是解释模型的宏观行为。该研究通过结合归因分析（Attribution）和电路追踪（Circuit Tracing）技术，成功地将微观的特征演化与模型在下游任务上的性能变化直接关联起来，展示了特定特征的形成如何“导致”了模型能力的提升。

方法：基于归因的电路追踪技术

该研究采用了一种名为“归因补丁”（Attribution Patching）的先进技术，其核心思想是量化每个Crosscoder特征对特定任务性能的“因果贡献”。

具体操作如下：以主谓一致（Subject-Verb Agreement, SVA）任务为例，比如句子“The teachers near the desk are...”。研究会构建一个“干净”输入（原句）和一个“损坏”输入（如将主语变为单数“The teacher...”）。任务的性能指标 m 定义为模型对正确动词形式（are）和错误动词形式（is）的logit差值。

然后，通过数学上的分解（公式3），模型的激活可以被看作是所有Crosscoder特征的加权和。这使得计算任务性能 m 对每个特征激活 fi(x) 的梯度成为可能。归因分数 attri(x)（公式4、5）本质上就是利用这个梯度来估算，如果某个特征 i 的激活值发生微小变化，任务性能会受到多大影响。通过在“干净”和“损坏”输入之间进行差分，该方法能更精确地定位到那些专门负责区分单复数的关键特征。

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

为了提高归算的鲁棒性，研究还使用了积分梯度（Integrated Gradients, IG）技术，它通过在基线（如损坏输入）和目标（干净输入）之间进行线性插值并累加梯度，来获得更稳健的因果贡献评估。

实验验证：主谓一致、归纳与间接宾语识别

研究在主谓一致（SVA）、归纳（Induction）和间接宾语识别（IOI）等多个经典任务上应用了上述方法。以SVA任务中的“Across-PP”变体（即主语和动词被介词短语隔开）为例，结果令人信服：

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

识别关键特征回路：归因分析成功识别出了一小组对该任务至关重要的特征。通过观察这些特征的激活文本（图6d），可以清晰地看到它们的功能分工：

特征18341和47045：负责识别复数名词，其中后者更专注于识别作为主语的复数名词。

特征68813：负责识别复合主语或介词短语结构。

特征50159和69636：负责标记介词短语的结束位置，为动词的出现做准备。重要的是，这些特征的涌现时间也遵循着逻辑顺序：识别复数名词的特征先出现，然后才是识别更复杂句法结构（介词短语）的特征。

验证必要性与充分性：为了证明这些被识别出的特征确实是“必要且充分”的，研究进行了消融实验（Ablation Experiments）。
必要性验证：当从模型中“移除”贡献最大的前k个特征时，模型在SVA任务上的性能急剧下降，证明了这些特征的不可或ability。
充分性验证：反之，当“仅保留”贡献最大的前k个特征而移除其他所有特征时，模型性能能够在很大程度上得到恢复。仅用几十个关键特征，就能恢复大部分原始性能，这有力地证明了归因分析找到的确实是执行该任务的核心计算组件。
追踪性能演化：通过绘制关键特征的归因分数随训练快照的演化曲线（图6a），研究还揭示了模型解决问题策略的动态演变。例如，特征68813、50159和69636的贡献度在不同训练阶段交替领先，这表明模型可能在通过“迭代”不同的组件和策略来不断优化其句法分析能力。

这些实验清晰地画出了一条从“特征涌现”到“能力获得”的因果链条，将微观的内部机制与宏观的行为表现紧密地联系在了一起。 (图 6, 图 14, 图 15, 图 16, 图 17, 图 18)

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

关键发现：从统计学习到特征学习的两阶段过渡

该研究最重要的理论贡献之一，是为语言模型预训练的“两阶段学习”假说提供了迄今为止最直接、最微观的证据。研究者假设，在训练初期，当训练损失（Loss）急剧下降时，模型并非在形成复杂的语义特征，而是在学习数据中粗浅的统计规律。只有当这种统计学习接近饱和后，模型才会转而通过构建稀疏、叠加的特征来进一步降低损失。

第一阶段：统计规律学习

为了验证这一假说，研究者计算了模型预测的词元分布与数据真实词元分布之间的KL散度（Kullback-Leibler Divergence），分别针对unigram（单个词的频率，符合Zipf定律）和bigram（相邻词对的频率）进行。

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析-AI.x社区

结果显示（图7a, 7b），在训练的极早期阶段（大约在step 1,000之前），unigram和bigram的KL散度都迅速下降并收敛到接近零的水平。更引人注目的是，在这一阶段，模型的训练损失值已经非常接近于真实数据分布的理论信息熵。信息熵代表了预测该分布所需信息的理论下限，这意味着模型在这一阶段的主要任务，就是尽可能地拟合数据中简单的一元和二元统计规律。这完美地解释了为何在这一阶段几乎没有复杂的“涌ü现特征”形成——因为模型正忙于一项更基础、回报率更高的任务。

第二阶段：特征叠加与涌现

那么，在step 1,000之后，当简单的统计规律已经被模型充分学习后，模型又是如何进一步提升性能的呢？研究者通过测量“总特征维度”的变化来回答这个问题。

他们借鉴了一个度量特征叠加程度的指标（公式6），该指标可以计算每个特征在激活空间中占据的“有效维度”。理论上，如果所有特征都是正交的（没有叠加），总特征维度应等于激活空间的维度。如果特征之间存在干扰或非对称排列，总维度会下降。

计算结果（图7c）显示了一个清晰的V形曲线：

在训练最开始，总特征维度较高，这对应于那些随机存在的“初始化特征”。
随后，维度开始下降，并在step 1,000附近达到谷底。研究者推测，这是因为模型为了给即将大量涌现的新特征腾出“表示空间”，开始对初始化特征进行“压缩”。
在step 1,000之后，随着“涌现特征”的大量形成，总特征维度开始稳步回升，最终在Pythia-160M上达到了激活空间维度的约70%。

这个V形曲线与前面观察到的特征涌现时间点、KL散度收敛时间点以及特征方向转折点高度吻合，共同描绘出了一幅连贯的图景：大约在step 1,000，语言模型的学习机制发生了一次相变（Phase Transition）。它从一个主要关注表层统计规律的“统计学习阶段”，过渡到了一个通过在激活空间中精心构建和叠加成千上万个稀疏特征来表征世界知识的“特征学习阶段”。这一发现与信息瓶颈理论（Information Bottleneck Theory）预测的“拟合-压缩”两阶段学习过程高度一致，但提供了更为具体和机械的解释。

研究方法与结果评估

论文的技术细节和核心发现都很清晰，但其研究设计、方法论和结论的可靠性仍然都还是有一些需要深入思考的地方。

研究的创新性与主要贡献

总体而言，这项研究在机制可解释性领域取得了显著的突破，其贡献是多方面的：

方法论的重大创新：将Crosscoders方法创造性地应用于追踪模型预训练的动态过程，是该研究最核心的技术贡献。它巧妙地解决了跨时间快照特征对齐这一关键难题，为后续所有分析奠定了坚实的基础。可以说，这项工作为研究神经网络学习动力学提供了一个全新的、功能强大的“显微镜”。
揭示了特征演化的普适规律：研究首次系统性地揭示了初始化特征与涌现特征的二元结构、特征复杂性与涌现时间的正相关性、以及从简单到复杂的学习层级。这些发现极大地丰富了我们对语言模型内部知识构建过程的理解。
建立了微观机制与宏观能力的因果桥梁：通过结合归因补丁技术，研究成功地将特定特征的形成与下游任务性能的提升直接挂钩，并用消融实验验证了其因果关系。这使得“模型为何能做某事”这一问题，可以被追溯到“因为模型学会了哪些具体特征”。
为两阶段学习理论提供了强力实证：通过KL散度分析和特征维度测量，研究为“统计学习-特征学习”两阶段模型提供了迄今最令人信服的证据。这一发现对于理解预训练效率、指导未来模型设计可能具有深远影响。

方法论的严谨性评估

该研究在实验设计和论证过程上表现出高度的严谨性是相当值得称道的：

细致的技术验证：研究者并未理所当然地使用Crosscoders，而是在附录中对其训练细节、超参数选择、与标准SAE的性能对比（图8）等方面做了详尽的阐述和比较。特别是附录C中关于解码器范数作为特征强度代理的验证实验，极大地增强了其核心度量的可信度。
多层次的证据支撑：研究的核心结论，特别是两阶段学习模型，是由多个独立但相互印证的证据链共同支撑的。特征涌现时间、KL散度收敛、特征方向转折点和总特征维度V形曲线，这四个不同维度的观察共同指向了同一个结论，形成了强大的论证闭环。
自动化与客观性尝试：在评估特征复杂性时，研究者没有依赖主观的人工标注，而是尝试使用LLM进行自动化打分。尽管这种方法本身有其局限性（后详），但这种追求客观和规模化分析的尝试是值得肯定的。
全面的案例分析：除了宏观统计，研究还深入到SVA、Induction、IOI等多个具体任务中进行案例分析，使得结论更加具体和可信。对不同变体（如SVA的四种变体）的全面测试也反映了其考虑之周全。

潜在局限与待解决的问题

尽管这项研究取得了卓越的成就，但作为一项前沿探索，它也存在一些固有的局限性，研究者在论文第7节也坦诚地指出了其中一部分。

模型的普适性问题：该研究的所有实验都基于Pythia模型套件。虽然Pythia系列因其开放和受控的训练设置而成为学术研究的理想选择，但其架构（GPT-NeoX）相对单一。这些关于特征演化的发现，在多大程度上能够推广到其他主流架构（如Llama系列、GPT系列）、不同的训练数据和训练策略（如不同的优化器或学习率调度）上，仍是一个有待验证的开放问题。
下游任务的复杂性有限：研究所选用的下游任务（SVA, IOI, Induction）虽然是机制可解释性领域的经典任务，但它们本质上仍属于相对简单、结构化的语言能力测试。对于更高级、更抽象的推理、创作或代码生成等复杂任务，其背后的特征回路可能会远比当前发现的更为复杂和庞大。当前的方法论能否有效地扩展到这些任务上，将是未来工作的一个重要方向。
快照的离散性限制：Crosscoder的训练成本与快照数量成正比，这限制了研究者只能选取离散的、有限的训练快照进行分析。这种离散采样可能会错过在两个快照之间发生的快速变化或瞬时现象。开发能够处理连续训练动态（例如，结合梯度信息）的分析方法，将是未来的一个重要改进方向。
特征复杂性评估的潜在偏差：使用LLM自动化评估特征复杂性是一个新颖的尝试，但其可靠性值得商榷。首先，LLM本身的“价值观”和对“复杂性”的理解可能存在偏见。其次，评估结果高度依赖于Prompt的设计。最后，这种方法可能会陷入某种程度的“循环论证”——用一个黑箱（LLM评估员）去理解另一个黑箱（被分析的模型）。尽管结果显示了相关性，但对这一方法的有效性仍需持保留态度。
特征分裂现象的挑战：研究在附录F中观察到了一个有趣的“特征分裂”（Feature Splitting）现象。即随着训练的进行和字典规模的增大，一个原本由单个特征表示的概念，可能会分裂成多个在不同训练阶段、不同上下文中激活的更专门化的特征（图22）。这一现象虽然本身揭示了特征的精细化过程，但也对“一个特征对应一个概念”的理想化模型提出了挑战，使得追踪一个宏观概念的演化变得更加复杂。

结论

《语言模型预训练中概念的演变》这篇论文无疑是近年来机制可解释性领域一项里程碑式的工作。它通过巧妙地运用和改造Crosscoders工具，成功地将我们对语言模型学习过程的观察精度，从宏观的损失曲线和任务性能，推进到了微观的、数以万计的“概念特征”的演化层面。通过严谨的实验和多维度的证据，为理解LLM预训练的“两阶段”学习动力学提供了支持。从而快速掌握统计规律到精细构建语义特征的相变过程，这一发现深刻地揭示了LLM学习的内在节律。

尽管在研究范围的普适性和方法的某些方面仍存在局限，但这项工作所开辟的研究路径、所展示的分析范式，无疑将极大地启发后续的研究。它让我们离最终完全打开语言模型这个“黑箱”的梦想，又迈出了坚实而重要的一步。未来的工作将有望在更广泛的模型架构、更复杂的任务以及更连续的时间维度上，延续并深化这一探索。

参考论文：https://arxiv.org/abs/2509.17196v1

本文转载自上堵吟，作者：一路到底的孟子敬

标签

语言模型

LLM

稀疏编码

已于2025-10-14 00:19:22修改

51CTO

51CTO博客

51CTO学堂

打开语言模型学习动态的“黑箱”——MOSS团队解释涌现的论文解析

核心方法论：利用Crosscoders追踪特征演化

技术背景：稀疏编码与特征可解释性

Cross-snapshot Crosscoder架构与训练

解码器范数：特征强度的代理指标

特征演化的宏观图景与微观动力学

两类核心特征：初始化特征与涌现特征

涌现特征的统计特性分析

特征复杂性与涌现时间的关联

典型特征演化案例研究

从微观特征到宏观行为：建立因果联系

方法：基于归因的电路追踪技术

实验验证：主谓一致、归纳与间接宾语识别

关键发现：从统计学习到特征学习的两阶段过渡

第一阶段：统计规律学习

第二阶段：特征叠加与涌现

研究方法与结果评估

研究的创新性与主要贡献

方法论的严谨性评估

潜在局限与待解决的问题

结论

目录