
回复
基于海量无标注数据(如互联网文本、多模态数据)进行自监督学习,通过语言建模(LM)、对比学习等任务建立通用表征能力。典型参数规模为千亿至万亿级别,需千卡级 GPU 集群训练数月。
使用标注数据(如领域问答、指令遵循)调整模型参数,使其适配下游任务。SFT 阶段仅需 0.1%-1% 的预训练数据量即可显著提升特定任务性能。
通过人类偏好数据训练奖励模型(Reward Model),指导大模型生成符合伦理和安全规范的内容。此阶段可将有害输出率降低 54%-78%。
环节 | 核心目标 | 技术特点 | 面试高频考点 |
预训练 | 构建通用语义表征 | 自监督学习、万亿级数据训练 | 分布式训练架构、数据清洗策略 |
SFT | 适配具体任务 | 小样本高效微调、领域知识注入 | LoRA 等参数高效微调技术 |
RLHF | 对齐人类价值观 | 奖励模型训练、PPO 等强化算法 | 偏好数据收集方法、KL 正则项作用 |
问题:“SFT 为何不能替代 RLHF?”
SFT 是 token 级学习,无法解决 “价值观对齐” 和 “用户隐性偏好捕捉” 问题,而 RLHF 通过人类反馈机制填补了这一空白。
本文转载自鸿煊的学习笔记,作者:乘风破浪jxj