大模型训练流程及 SFT、RLHF 作用简述

发布于 2025-7-4 00:09
浏览
0收藏

一、大模型训练流程:从预训练到对齐的三阶闭环

1.1 预训练阶段

基于海量无标注数据(如互联网文本、多模态数据)进行自监督学习,通过语言建模(LM)、对比学习等任务建立通用表征能力。典型参数规模为千亿至万亿级别,需千卡级 GPU 集群训练数月。

1.2 监督微调(SFT)阶段

使用标注数据(如领域问答、指令遵循)调整模型参数,使其适配下游任务。SFT 阶段仅需 0.1%-1% 的预训练数据量即可显著提升特定任务性能。

1.3 强化学习对齐(RLHF)阶段

通过人类偏好数据训练奖励模型(Reward Model),指导大模型生成符合伦理和安全规范的内容。此阶段可将有害输出率降低 54%-78%。

二、SFT 与 RLHF 的核心作用

2.1 监督微调(SFT)的双向价值

  • 任务适配:通过领域数据训练,使模型从 “通用知识理解” 转向 “特定任务执行”。例如在医疗问答中,SFT 可将模型准确率从通用场景的 75% 提升至专业领域的 88%。
  • 效率优化:仅需少量标注数据(预训练数据量的 0.1%-1%)即可实现性能提升,避免从头训练的海量资源消耗。

2.2 强化学习对齐(RLHF)的三层优化

  • 伦理控制:通过人类偏好数据训练奖励模型,将有害输出率降低 54%-78%,确保模型输出符合社会规范3。
  • 偏好对齐:解决 SFT 的 “目标 mismatch” 问题 ——SFT 仅学习 “正确回答” 的概率分布,而 RLHF 能让模型理解 “人类偏好的回答”(如口语化表达 vs 学术化表达)。
  • 动态进化:通过持续收集用户反馈,RLHF 可迭代优化模型策略,例如在客服场景中,模型可根据用户满意度反馈自动调整回答风格。

三、关键技术对比

环节

核心目标

技术特点

面试高频考点

预训练

构建通用语义表征

自监督学习、万亿级数据训练

分布式训练架构、数据清洗策略

SFT

适配具体任务

小样本高效微调、领域知识注入

LoRA 等参数高效微调技术

RLHF

对齐人类价值观

奖励模型训练、PPO 等强化算法

偏好数据收集方法、KL 正则项作用

问题:“SFT 为何不能替代 RLHF?” 

SFT 是 token 级学习,无法解决 “价值观对齐” 和 “用户隐性偏好捕捉” 问题,而 RLHF 通过人类反馈机制填补了这一空白。

本文转载自​​​​​​鸿煊的学习笔记​​​​​​,作者:乘风破浪jxj

收藏
回复
举报
回复
相关推荐