
论文:解密合成数据在LLM预训练中的作用:Scaling Laws、益处与陷阱的系统性研究(Meta FAIR研究院)
核心论点
合成数据是双刃剑,其价值在于“策略性混合”而非“纯粹替代”
这项研究通过超过10万GPU小时和1000个模型的超大规模实验,系统性地揭示了合成数据在大型语言模型(LLM)预训练阶段的真实作用。其根本结论是:合成数据并非万能解药,盲目使用甚至有害;但若作为“催化剂”与高质量的真实数据策略性地混合,则能大幅提升训练效率与模型潜力。
关键发现与工程实践指南
1. “混合”是王道:特定配比可将训练速度提升5-10倍
- 纯合成数据表现不佳:无论是“高质量改写”还是“教科书式”的纯合成数据,其单独预训练的效果均不超过甚至显著劣于传统的自然网页文本(如CommonCrawl)。
- 混合使用效果显著:当把约 30% 的“高质量改写”合成数据与70%的自然网页数据混合时,能够在消耗同等计算资源的情况下,达到与纯自然数据训练相比低得多的验证损失(Validation Loss),相当于将预训练的收敛速度提升了5到10倍。
2. 数据类型至关重要:“改写”优于“凭空生成”
- 高质量改写(High-Quality Rewriting):这种方法将现有的网页文本进行精炼、提纯,使其风格类似维基百科。这类数据在混合使用时表现最佳,是提升效率的关键。
- 教科书式生成(Textbook Generation):这种方法根据关键词完全生成新的、结构化的“教科书”内容。实验表明,这类纯生成数据存在明显陷阱,尤其在小数据预算下,会导致模型性能显著恶化,并呈现出符合“模型坍塌”(Model Collapse)理论预测的模式。
3. “最佳混合比”收敛于30%,而非越高越好
研究发现,对于效果最好的“高质量改写”数据,其在训练数据中的最佳比例并非一个固定值,它会随模型大小和数据预算变化。但一个清晰的趋势是,该比例经验性地收敛于30%左右。这意味着无脑堆砌合成数据比例是错误的做法。
4. 生成器模型并非越大越好:存在“能力甜点”
一个反直觉的发现是,用于生成合成数据的“生成器模型”并非能力越强(参数量越大)越好。实验表明,使用Llama-3-8B模型生成的数据,其预训练效果优于使用Llama-3-70B生成的数据。这暗示了生成器的输出可能在超过某个“能力甜点”后,其生成数据的多样性或某些隐性特征会下降,反而不利于下游模型的预训练。
对“模型坍塌”(Model Collapse)理论的实证洞察
这项研究为“模型坍塌”理论提供了一轮(n=1)训练场景下的重要实证证据,澄清了其适用边界:
- “改写”数据可规避坍塌:在使用“高质量改写”的合成数据进行混合预训练时,在可预见的规模内并未观察到理论所预测的性能退化。这表明,只要合成过程有真实数据作为“锚点”,坍塌风险是可控的。
- “纯生成”数据验证了坍塌风险:“教科书式”数据的糟糕表现,则从实践上印证了完全依赖模型自身生成内容进行递归训练的巨大风险。
总之,这项工作为业界在LLM预训练中如何有效、安全地利用合成数据提供了极其宝贵的量化指导和实践原则,强调了数据质量、生成范式和混合策略的核心重要性。
摘要
训练数据在大型语言模型(LLM)规模化中发挥关键作用,然而高质量数据供应有限。合成数据技术提供一种潜在途径来规避这些限制。我们进行大规模实证调查(超过1000个LLM,使用超过100000 GPU小时),采用统一协议和Scaling Laws,比较自然网页数据、多样合成类型(改写文本、生成教科书)以及自然与合成数据的混合。具体而言,我们发现仅在改写合成数据上进行预训练并不比在自然网页文本上更快;而在1/3改写合成数据与2/3自然网页文本的混合上进行预训练,可在更大数据预算下加速5至10倍(达到相同验证损失)。仅在教科书式合成数据上进行预训练会导致在许多下游领域损失显著更高,尤其在小数据预算下。训练数据混合中合成数据的“好”比例取决于模型大小和数据预算,对于改写合成数据经验上收敛到约30%。更大生成器模型并不一定产生比约8B参数模型更好的预训练数据。这些结果为大规模单轮(n=1)模型在合成数据上的训练提供混合证据:在改写合成数据上训练在可预见规模内无性能退化,而在教科书式纯生成合成数据混合上训练显示出“model collapse”预测的模式。本工作解密了合成数据在预训练中的作用,验证了其条件性益处,并提供实际指导。
1.引言
大型语言模型(LLM)的显著进步与训练数据的规模密切相关,更关键的是其质量。随着训练最先进模型的计算需求激增,以及高质量自然文本的有限性日益明显(Villalobos et al., 2024),人们对合成数据的兴趣显著增加(Ben Allal et al., 2024; Eldan and Li, 2023; Patel et al., 2024; Chen et al., 2024; Long et al., 2024; Thrush et al., 2024; Havrilla et al., 2024; Maini et al., 2024; Li et al., 2023b; Abdin et al., 2024; Javaheripi et al., 2023; Cheng et al., 2024; Gu et al., 2023)。合成数据定义为由预现有模型或自动化流水线生成的文本,在基础预训练阶段提供一种引人注目的潜力途径,用于增强或最终取代传统人类生成语料库。
虽然合成数据在后训练阶段的效用日益确立,例如指令微调(instruction-tuning)和对齐(alignment)(Taori et al., 2023; Li et al., 2023a; Ge et al., 2024),其中目标针对性强且自然数据可能稀缺,但其在关键预训练阶段的作用和影响仍未充分表征和理解(Liu et al., 2024b)。这一知识空白构成了优化LLM开发流水线的重大障碍,并引发基本问题:
- (RQ1) 合成数据能否在大数据规模下有效提升LLM预训练性能,以及在何种条件下?
- (RQ2) 不同类型和生成方法学的合成数据如何影响预训练动态和Scaling Laws行为?
- (RQ3) 什么原则指导合成数据在预训练中的有效部署,包括“好”混合比例、生成器模型能力的影响,以及训练语料库的统计特征?
尽管这些问题直观明了,但明确答案仍难以捉摸。这种模糊源于多个因素。首先,领域特征在于不一致的实证发现和显著的方法异质性(Long et al., 2024; Liu et al., 2024b)。提出的方法通常依赖定制设置,模糊了直接可比性和泛化性。即使对于简单开源方法,Yang et al. (2024)报告在Maini et al. (2024)合成数据上训练的模型在持续预训练中早期饱和,而无显著性能提升。其次,合成数据生成涉及针对质量提升与广泛分布多样性之间的复杂权衡。最近研究在合成数据上呈现矛盾:一些认为其以牺牲多样性为代价改善训练数据质量(Havrilla et al., 2024),另一些建议多样性本身是模型性能的关键预测因素(Chen et al., 2024)。第三,理论担忧持续存在,特别是从递归训练中产生的“model collapse”(Dohmatob et al., 2024b, a),即使灾难性失败尚未广泛出现。这种潜在益处、不一致证据、方法变异和理论风险的结合突显了对系统性调查的迫切需求。
为填补这一关键空白并提供实证基础答案,我们对合成数据在LLM预训练中的作用和有效使用进行系统性、大规模调查。本研究涉及训练超过1000个LLM变体(参数高达3B),数据集高达200B Token,使用超过100000 GPU小时,从而评估模型大小和数据体制在Scaling Laws中的效果。
我们的主要发现揭示:
- 战略性地纳入特定合成数据类型可显著加速预训练收敛。与在自然网页文本上预训练相比,在1/3改写合成数据与2/3自然网页文本混合上训练可在更大数据预算下加速5至10倍(达到相同验证损失)。
- 然而,影响高度依赖合成数据的类型和特征:仅在改写合成数据上预训练并不比在自然网页文本上更快;而在教科书式合成数据上预训练会导致验证损失显著更高。
- 训练数据混合中合成数据的“好”比例是细微的,随数据类型、目标模型规模和预算而变,对于改写合成数据收敛到约30%。反直觉的是,更大或更强生成器模型并不一定产生比约8B参数模型优越的合成数据用于下游模型预训练。
- 我们聚焦低级统计解释结果。有些在测试数据集中频繁但在训练数据集中稀缺或缺失的unigram导致更高评估损失,而无单一训练集提供完整覆盖。CommonCrawl具有更宽的unigram覆盖和到测试数据集的最低KL-divergence;然而,它并未产生优越性能,表明“好”训练数据混合依赖于超出简单相似性的因素,并指向更复杂的多样性与质量权衡。。
2.相关工作
本研究与LLM开发的多个关键领域交汇,特别是涉及合成数据生成和用于预训练、数据混合策略、Scaling Laws应用,以及围绕model collapse的担忧。
合成数据在LLM预训练中
合成数据的效用在训练的针对性后期阶段得到广泛认可,例如指令微调(Taori et al., 2023)、对齐(Li et al., 2023a; Ge et al., 2024),以及日益用于增强推理能力(Muennighoff et al., 2025)。Meta (2025)详细描述了一个专用“中训练”阶段,使用合成推理数据,在初始预训练后和后续后训练与强化学习(RL)前发生。相比之下,合成数据在基础预训练通用能力中的作用较少确立,并以多样方法为特征。Phi系列(Li et al., 2023b; Javaheripi et al., 2023)率先使用“教科书式”合成数据预训练生产级模型。Abdin et al. (2024),讨论后续Phi模型(例如Phi-4),认为此方法特别在自然网页文本提供递减回报的大训练预算下提升推理,同时承认潜在缺点如有限事实基础和增加幻觉风险。其他基础预训练探索包括Eldan and Li (2023)为较小模型的故事生成、改写现有文本(Maini et al., 2024),以及采用多样提示生成(Chen et al., 2024; Patel et al., 2024; Gu et al., 2023)。尽管这些探索(见Havrilla et al. (2024)的调查),领域特征在于方法异质性和有时冲突的结果(例如,Long et al. (2024)和Liu et al. (2024b)关于多样性和质量;Yang et al. (2024)关于Maini et al. (2024)改写数据的饱和)。本研究通过系统评估多个不同合成数据生成范式(改写网页文本、生成“教科书”)及其与自然数据的混合,在统一预训练协议和严格Scaling Laws分析下,在实质数据和模型规模上进行,旨在澄清这些模糊。
数据Curation、混合策略和Scaling Laws
细致数据 Curation 和多样自然数据源的战略混合被确立为LLM预训练的关键(Touvron et al., 2023; Raffel et al., 2020; Penedo et al., 2024; Xie et al., 2023; Ye et al., 2024; Liu et al., 2024a)。然而,合成数据与自然语料库的系统集成和Scaling Laws行为相对未探索,尽管初步发现显示此类混合的益处(Maini et al., 2024; Javaheripi et al., 2023)。开创性Scaling Laws描述LLM性能与模型大小、数据集大小和计算等因素的可预测关系(Kaplan et al., 2020; Hoffmann et al., 2022),最近扩展到模型自然数据混合策略(Kang et al., 2024b)。具体使用合成数据的预训练规模动态被描述为“神秘的”(Liu et al., 2024b)。例如,在某些合成数据类型上训练的模型可显示早期性能饱和(Yang et al., 2024),突显了对更清晰理解的需求。本工作独特地通过采用Scaling Laws分析作为主要评估工具来填补这些空白。我们系统调查不同合成数据类型与自然网页文本基线的优化混合比例,检查这些比例和整体预训练有效性如何与合成数据特征和变异数据预算互动。此方法旨在解密合成数据在可规模LLM预训练中的作用,并为其有效集成提供实证基础指导。
模型崩溃和代际退化
主要在模型生成数据上训练模型的前景激发了对“model collapse”或“generational degradation”的理论调查,其中递归训练可能因减少多样性或放大偏差导致模型质量下降(Shumailov et al., 2023; Dohmatob et al., 2024b, a)。虽然这些风险在理论分析和模拟中被突出,但来自实际预训练场景的大规模实证证据,特别是那些仍纳入显著自然数据的,仍然有限。本研究通过在具有变异比例和类型合成数据的大数据集上预训练模型,提供关于“model collapse”在大型单轮(n=1)训练合成数据上的直接实证洞见。
3.合成数据生成方法
我们调查两种不同范式用于生成合成数据:网页改写和教科书式纯合成数据。这些范式代表增强或取代预训练中自然文本的不同哲学。
3.1 网页改写
受WRAP(Maini et al., 2024)等技术启发,网页改写利用预训练语言模型(LM)将现有网页文档精炼为潜在更有价值的预训练资源。在本研究中,我们通过从CommonCrawl数据集采样文档实现网页改写。预训练生成器LM被提示改写这些文档。从Maini et al. (2024)探索的变体中汲取灵感,我们生成两种不同风格,旨在探查不同潜在益处用于预训练:
- 高质量(High-Quality,HQ)改写:提示指示生成器模型将源文本改写为清晰、连贯、结构良好的英语,模仿高质量来源如Wikipedia的风格。这针对改善一般文本质量用于基础预训练,类似于激进数据过滤或质量提升步骤。HQ改写旨在增加网页语料库中已有信息的有效密度和质量,与提高预训练数据效率的更广目标一致。
- 问答(Question-Answering,QA)改写:提示指示生成器模型将源文本信息重组为对话式问答格式。这探索将指令跟随或对话式结构直接纳入预训练阶段,可能加速对齐能力的发展。此QA改写方法与日益增长的“instruction pre-training”(Cheng et al., 2024)兴趣相关,其中下游目标如指令跟随或对话能力通过合成数据格式早期纳入。
3.2 合成教科书(TXBK)
此范式由假设驱动,即密集、高质量、教育内容可能比扩散网页文本更计算高效,用于灌输某些能力(例如,推理、编码、事实回忆)。目标是生成完全新颖内容,模仿教科书或高质量教育材料的结构、风格和信息密度。在我们的实验中,我们生成新颖“教科书式”文档。生成过程使用从CommonCrawl随机采样的关键词作为种子,提供多样主题的起点。然后,使用预训练生成器LM(例如Mistral-7B)通过结构化指令提示生成类似于教科书章节或教程的文本。这些提示明确鼓励生成清晰解释、定义、说明性示例(包括相关代码片段与解释),以及潜在相关练习或推理步骤。在整个生成过程中,强调争取事实准确性、连贯性和清晰教学结构。
4.实证结果
4.1 实验设置
我们进行大规模预训练实验,比较在以下上训练的模型:(1) 自然网页语料库基线,(2) 使用我们不同网页改写和合成教科书范式(见第3节生成方法学)生成的纯合成数据集,以及(3) 自然与合成数据的各种混合。大约600个LLM变体,大小高达30亿参数,在高达2000亿Token的数据集上训练。此努力在NVIDIA A100 80G硬件上消耗超过70000 GPU小时。
4.1.1 数据集
自然数据基线:我们的自然数据由从未过滤CommonCrawl(CC)转储中提取的英语文本组成,通过RedPajama-v2流水线(Weber et al., 2024)处理。
合成数据:所有合成数据集使用Mistral-Instruct-7b-v0.1模型(Jiang et al., 2023)生成,用于改写或种子的输入文档从我们未过滤CC基线采样。应用标准生成采样参数和轻度启发式后过滤。生成细节、提示模板和样本生成在附录B.3中提供。
产生以下合成类型:
- 网页改写(Maini et al. (2024)-like):通过使用从Maini et al. (2024)优化的提示改写CC文档生成更长文本,在两种风格:HQ和QA。
- 合成教科书(Li et al. (2023b)-like):从CC派生大纲生成的新颖多章节“教科书”(TXBK),采用针对不同受众的变异提示以鼓励多样性。每章节平均约450 Token,并常包括练习。
训练数据混合:对于每个合成数据类型(HQ、QA或TXBK),我们通过在这些条件下连接和打乱源数据准备数据集:100%自然(未过滤CC基线);100%合成(完全由一种合成类型组成:HQ、QA或Textbook);67%合成/33%自然;33%合成/67%自然。对于每个实验点(由模型大小和数据预算定义),模型在这些不同混合上训练,实现直接比较。每个条件训练5个以上模型变体用于鲁棒Scaling Laws分析。
4.1.2 模型、训练和评估
我们使用基于Llama 3的标准仅解码器Transformer架构(Grattafiori et al., 2024),模型大小从100M到3B参数对数范围。所有模型使用Meta Lingua库(Videau et al., 2024)在PyTorch(Paszke, 2019)上从零训练。遵循LLM Scaling Laws研究线(Kaplan et al., 2020),我们定义所有训练模型的大小为其非嵌入参数计数,即模型中除输入和输出Token嵌入相关的可学习参数。主要性能度量是在保留多样14个非代码/数学英语文本领域从The Pile(Gao et al., 2020)和Wikitext-103数据集(Merity et al., 2016)计算的每Token平均困惑度(交叉熵损失),在最终检查点评估。完整细节在附录A.2中提供。
4.1.3 数据规模化
对于固定模型大小(1B参数),数据规模化建模为:ℒ^(D)=BD^β + E,其中ℒ为验证损失,D为训练数据预算,B、β、E为拟合系数。
我们训练1B参数模型在各种数据混合上,数据预算从1B到200B Token。使用高达100B Token的数据点拟合规模公式;然后在训练200B Token的运行上验证。六个数据混合(CommonCrawl、33% HQ + 67% CC、33% QA + 67% CC、Textbook (TXBK)、67% TXBK + 33% CC和33% TXBK + 67% CC)训练到200B Token用于此验证,因为我们的HQ和QA合成数据集各限于100B Token。该拟合显示高精度,如图1(左)所示,在预测200B Token时实现低相对平均绝对误差(RMABE)0.41%。
图1:数据规模化。左:数据规模公式验证。使用高达100B Token拟合的200B Token预测实现RMABE 0.41%。实心点显示实际损失值,而拟合曲线显示预测损失。验证数据点由菱形标记说明。右:各种数据混合下1B参数模型的推断数据规模性能。
通过合理可靠的拟合验证,我们推断数据规模(拟合高达100B Token)以预测更大数据预算(高达8T Token)的损失,覆盖最先进LLM的训练体制(Meta, 2025; DeepSeek-AI, 2024)。关键发现呈现在图1(右)并总结如下:
- 纯合成数据不优于CommonCrawl (CC):仅在HQ或QA合成数据上训练并不显著优于仅在CC上训练。仅在TXBK上训练显著差于在CC上训练。
- 混合优于纯合成类型:将任何合成数据类型与CC混合显著改善性能超过单独使用该合成类型。
- 改写数据混合对比例(33% vs. 67%合成)敏感度低:对于HQ和QA,33%和67%合成与CC的混合产生类似性能。
- 教科书混合青睐较少合成数据:对于TXBK,33%合成混合显著优于67%混合。33% TXBK混合在约20B Token后超越纯CC性能,而67% TXBK混合劣于纯CC。
4.1.4 模型规模化
对于固定数据预算(50B Token),模型规模化建模为:ℒ^(N)=AN^α + E,其中N为模型参数大小,A、α、E为拟合系数。
我们在所有10个数据混合上训练从100M到3B参数的模型50B Token。使用高达2B参数的模型拟合公式,并在3B参数模型上验证。此拟合也证明高度精确(图2,左),对于3B参数模型预测的RMABE为0.30%。推断模型规模(拟合高达3B参数)以预测更大模型(高达400B参数)在50B Token预算上的性能(图2,右)揭示了与数据规模模式的一些差异:
图2:模型规模化。左:模型规模公式验证。使用高达2B参数模型拟合的3B参数模型预测在菱形标记的验证数据点上实现RMABE 0.30%。实心点显示实际损失值,而拟合曲线显示预测损失。右:各种数据混合下训练50B Token的推断模型规模性能。
- 纯合成数据仍不优于CC;值得注意的是,在纯改写合成数据上训练的模型在更大模型下将劣于在CC上训练的模型。
- 对于改写数据混合,对混合比例的敏感度变化:虽然67%合成混合在大数据预算(数据规模)下略优,但相比33%混合,在更大模型大小(模型规模)下变得略不利。
- 对于TXBK混合,33%合成一致优于67%。33% TXBK相对于纯CC的优势随更大模型减小,此趋势未在数据规模中观察到。
总体,这些模型规模结果表明合成数据相对于其在数据规模场景中的效用,对于预训练更大LM显得相对较不利。尽管优于在CC上训练,更大模型不如更大数据预算那样容忍更高比例合成数据。此观察与实践一致,其中合成数据对较小LM或特定预训练阶段有效,但对最大模型使用较少主导。
4.1.5 计算规模化和不可约损失
我们还使用来自所有约700次训练运行的数据拟合联合Scaling Laws,同时纳入模型大小(N)和数据预算(D)(细节在附录A):ℒ^(N,D)=AN^α + BD^β + E。CC数据的示例损失景观如图6所示。系数E表示不可约损失,即无限大模型和数据下可实现的理论最小损失。
每个数据混合的E估计(图3)指示其最终潜力。值得注意的是,任何涉及合成数据的混合,或纯合成数据(除纯QA),预计实现比仅在CommonCrawl上训练更低的不可约损失。这实证挑战单轮训练中“model collapse”的理论担忧,该担忧预测任何合成数据纳入将最终退化性能(Dohmatob et al., 2024a)。在研究混合中,33% HQ改写数据 + 67% CC显示最低预测不可约损失。相反,纯QA改写数据显示高不可约损失,仅次于纯CommonCrawl。
图3:不同数据混合的估计不可约损失(E)。更低值更好。
5.额外研究:更广视角
除了主要Scaling Laws分析,我们进行针对性实验以加深对影响合成数据在预训练中有效使用的特定因素的理解。
5.1 “好”合成数据混合比例
动机
我们的主要Scaling Laws分析测试了合成与自然数据的有限离散混合比例(0%、33%、67%、100%)。为以更细粒度识别“好”比例,我们进行细粒网格搜索,受指示最优混合随合成数据类型、模型规模和数据预算变异的激励。
方法
我们训练约400个额外LLM(200M到1B参数)在1B到50B Token的数据预算上。对于每个合成数据类型(HQ、QA、TXBK)和每个(模型大小、数据预算)配置,我们变异与CommonCrawl混合的合成数据百分比,跨十个指数间隔点:0%、0.5%、1%、2%、5%、10%、15%、20%、50%和100%。“好”比例定义为在评估集上产生最低验证损失的混合。
图4:从网格搜索中最佳发现混合比例(与CommonCrawl的合成数据百分比)对于HQ(左)、QA(中)和TXBK(右)合成数据类型,跨不同模型大小和数据预算。最佳发现比例均低于50%,似乎收敛到约30%。
发现
图4可视化结果。最佳发现比例均低于50%,似乎收敛到约30%。关键观察包括:
- HQ改写数据:最优混合一致为约30% HQ合成数据与70% CommonCrawl,跨测试规模。此30%混合通常优于Maini et al. (2024)建议的50%混合在我们设置中。
- QA改写数据:QA数据的首选比例随模型/数据大小增加而趋于减少,从较小配置的约50%移向较大配置的30%。
- 教科书(TXBK)数据:益处在更大规模最明显。最优比例对于较小配置往往最小(低于5%),随规模增加但通常保持低于改写数据。
这些发现精炼我们的Scaling Laws观察,强调有效合成数据部署对其类型和训练体制的敏感性。
5.2 生成器模型能力的影响
动机
通常假设更大、更强生成器模型产生更高质量合成数据,导致更好下游性能。我们实证测试此假设。
方法
我们使用变异规模的Llama-3模型(3B、8B和70B参数)作为生成器,重新创建我们HQ和QA改写数据集的子集。生成提示和源CommonCrawl文档与原流水线一致,该流水线使用Mistral-7B-Instruct作为生成器。然后,使用固定1B参数下游模型,与先前实验相同架构,训练5亿Token。对于每个生成器(Llama3-3B/8B/70B),我们通过在与CommonCrawl的混合上训练下游模型评估产生的合成数据。这些混合中合成数据百分比跨八个指数间隔点变异:0.5%、1%、2%、5%、10%、15%和20%。约200个模型为此消融研究训练,以比较不同能力生成器模型产生的合成数据效能。
发现
结果,由类似于图5所示趋势说明,挑战“越大越好”的生成器模型直觉,并揭示细微关系:
- 一定水平的生成器能力似乎有益:来自Llama-3-8B生成器的合成数据一致优于来自Llama-3-3B生成器的。这发现建议需要基线能力,并与Maini et al. (2024)的建议对比,即可通过使用较小生成器LM显著降低改写成本而无下游性能损失。
- 然而,进一步增加生成器大小到Llama-3-70B并未产生比来自Llama-3-8B生成器优越的合成数据用于预训练,通过训练模型的验证损失评估。
- 在特定实例中,Llama-3-70B生成器证明较不有效。对于HQ改写数据,Llama-3-70B模型生成的合成数据导致比来自Llama-3-8B模型一致更差的评估结果。对于QA改写数据,70B生成器的输出导致比8B生成器相当的性能。
这表明超出单纯生成器规模的因素,例如不同规模的指令跟随保真度、生成输出多样性,或潜在引入风格伪影,在确定合成数据用于预训练的效用中发挥关键作用。简单采用最大可用生成器可能不是最有效或高效策略。
图5:生成器模型能力消融。比较使用来自Llama3-3B/8B/70B生成器的HQ/QA改写数据与CommonCrawl混合训练5B Token的1B参数模型的验证损失。这些混合中合成数据百分比跨从0.5%到20%的七个指数间隔点变异。
5.3 通过低级统计解释
合成数据对预训练效率的影响,特别是“好”混合比例如何随合成数据类型、预算和模型大小变异,需要调查底层机制。虽然合成数据可能改善“数据质量”(例如,更好连贯性、减少噪声)以牺牲多样性为代价(Long et al., 2024),但生成过程反映生成器LM的输出分布,可能从自然表达缩小分布支持或引入如model collapse的伪影(Dohmatob et al., 2024a)。
我们通过低级统计分析调查:
- (Q1) 合成数据是否比自然网页文本显示减少的词汇多样性(即“shrunk support”)?
- (Q2) 使用合成数据的测试性能改善是否可归因于更小训练-测试分布距离?
- (Q3) 最优混合比例是否由于最小化分布距离,或更复杂多样性与质量权衡?
受Magnusson et al. (2024)发现小部分高频字符串显著贡献LM损失的启发,我们跨训练和测试语料库进行unigram频率分析。
完整结果和分析在附录5.3中提供。我们总结关键发现:
- 词汇不匹配和高损失Token:在测试集中频繁但在某些训练集中稀缺或缺失的unigram(例如,“\n\n”、“hvor”(丹麦语)、“dön”(土耳其语)等)导致更高评估损失。此问题普遍;无单一训练集提供完整覆盖。
- 合成数据和unigram分布:合成数据比宽广网页语料库如CommonCrawl略微缩小unigram分布;然而CommonCrawl的更宽覆盖并未产生优越性能。
- 到测试集的分布距离:unigram分布上的KL-divergence未显示合成数据更接近测试分布;CommonCrawl似乎最接近测试数据集。
初步结论:
- 单一数据源的固有局限:所有数据源,包括CommonCrawl,都有分布间隙导致在欠表示Token上的高评估损失。这青睐具有宽广词汇覆盖和合理频率的混合语料库,帮助解释为什么混合源语料库往往优于单一源。
- 超出分布匹配的“好”混合:模型往往以显著合成数据比例(例如,约30%)训练最佳,即使它不最小化到测试集的unigram分布距离。这表明超出简单相似性的因素,指向更复杂多样性与质量权衡。
6.结论
此大规模实证调查(超过1000个LLM变体)证明合成数据在基础预训练中呈现细微权衡。战略混合特定合成类型(例如,约30%高质量改写文本与自然数据)可显著加速预训练收敛高达5至10倍,并潜在实现比自然数据单独更低的不可约损失。这些结果为大规模单轮(n=1)模型在合成数据上的训练提供混合证据:在改写合成数据上训练在可预见规模内无性能退化,而在教科书式纯生成合成数据混合上训练显示“model collapse”预测的模式。然而,有效性也条件于生成方法、混合策略和生成器模型。更大生成器模型未保证优越预训练数据。下游模型性能不能简单由训练数据的多样性或到测试语料库的相似性解释,而是指向更复杂多样性与质量权衡。
我们的发现强调合成数据需要仔细、实证告知的部署,而不是数据约束的通用解决方案。基本下一步涉及开发更针对性合成数据生成技术和动态混合策略。在前沿规模上对其对多样模型能力(推理、鲁棒性、对齐)的长期影响进行严格评估至关重要,同时 pinpoint生成器模型超出单纯大小的关键有益特征。
7. 讨论
关于大规模单轮(n=1)模型在合成数据上的训练的“model collapse”。本论文贡献关于大规模单轮(n=1)模型在合成数据上训练的新证据,拒绝先前研究中某些关于“model collapse”的猜想,并帮助精炼其应用范围。
“model collapse”概念由Shumailov et al. (2023)正式化,表征迭代在自生成(或混合)数据上训练的效果。随后工作如Dohmatob et al. (2024b)研究n-fold迭代合成训练的效果,其中主要结果显示即使n=1(一轮)在合成数据上训练导致测试困惑度显著爆发相比原数据训练。此外,Dohmatob et al. (2024a)显示即使最小合成数据分数(例如,总训练数据集的1%)在124M参数GPT-2 small上在BabyStories上训练仍可导致model collapse。基于理论推导,作者猜想更大“模型可能缓解崩溃,虽然它们不能完全防止它。”鉴于对重要主题的强结论,理论分析基于风格化模型(例如,回归模型),语言建模实验简单(例如,一任务微调)。这些“model collapse”预报与合成数据生成/训练的进步之间仍存在显著差距。
本工作为此演进主题带来更多清晰。在本工作中,我们发现对于一轮(n=1)模型在合成数据上的训练:
- 在当代LM预训练中使用改写合成数据时,我们未见在可预见规模内的性能退化模式,且在改写合成数据与自然数据混合上预训练可导致验证损失减少的显著加速。
- 在教科书式纯生成合成数据混合上训练确实导致下游领域损失显著更高,尤其在小数据预算下。这与“model collapse”论文报告的模式和预测大致一致。
这显示在大型LM预训练中,一轮在合成数据上训练并不一定退化验证性能,限制“model collapse”论文理论结果的外推。
- 尽管n-gram分布支持缩小,使用正确类型合成数据和与自然数据的混合比例,纳入合成数据的益处可能超过“model collapse”问题并交付实质益处。这添加反证据于纳入合成数据将总是导致更差模型性能的猜想。
- 然而,大多数观察益处来自改写合成数据,而教科书式合成数据即使与大量自然数据混合往往导致性能退化。在教科书式合成数据上的实证结果显示“model collapse”中表征的模式,建议“model collapse”中理论结果的泛化性可能依赖合成数据的性质。
总之,本工作贡献的结果和发现拒绝“model collapse”中的某些声明,并帮助精炼其应用范围。
局限性
本研究虽广泛,但有影响范围和泛化性的局限:
- 合成数据范围有限:我们分析三种特定合成数据类型(HQ/QA改写、TXBK)。发现可能不直接适用于其他生成方法(例如,合成代码、对话)或提示策略。
- 评估焦点:分析严重依赖困惑度/损失用于规模。缺乏对细微能力或安全的深入人类评估,以及对高度专业任务的评估。在NLP基准上的额外评估将是理想补充,因为损失并非最终目标。
- 时间效应:我们检查单一预训练阶段。潜在长期效应、细微退化或多代动态(“model collapse”)未调查。
- 规模约束:实验达到3B参数和200B Token。观察到的合成数据效用在更大模型大小的规模趋势需要在前沿模型规模(超过100B参数、超过10T Token)验证。
- Tokenizers的影响:第5.3节研究显示不同训练数据集有不同Token覆盖,其中某些在训练数据中稀缺的Token可能与评估中更高损失相关。虽然不足以影响本论文主要结果(如“好”混合比例),但Tokenizer的影响在验证损失的更细粒分析中可能更可见。
伦理考虑
合成数据在LLM预训练中的生成和使用值得仔细伦理反思:
- 偏差传播:合成数据风险继承并放大生成器模型的偏差。对生成器和生成数据进行公平审计至关重要,但超出本研究范围。
- 事实准确性:生成内容可包括不准确(hallucinations)。大规模使用可能在模型中嵌入误信息,需要鲁棒质量控制。
- 数据多样性:过度依赖潜在同质合成数据可能比在多样真实世界文本上训练减少模型鲁棒性和多样性。
- 透明度和可再现性:我们通过承诺开源完整配方缓解某些担忧,以促进可再现性和进一步社区研究。
本文转载自Andy730,作者:常华
