后训练(Post-training)是指在预训练完成后,对模型进行的进一步训练阶段,目的是将通用基础模型适配到特定任务或对齐人类偏好。
核心要点
- 目的:让模型从”会说话”变成”会好好说话”,从学知识转向学行为
- 与预训练的区别:
- 预训练:学习”世界是什么样的”(知识、语言规律)
- 后训练:学习”应该怎么做”(遵循指令、符合偏好)
主要形式
| 阶段 | 方法 | 目标 | 数据特点 |
|---|---|---|---|
| 监督微调(SFT) | 在指令-回答对上微调 | 学习遵循指令的格式和风格 | 高质量人工标注,数量较小(数千~数万条) |
| 对齐训练 | RLHF、DPO 等 | 对齐人类价值观和偏好 | 人类偏好排序/比较数据 |
| 持续预训练 | 在领域数据上继续预训练 | 注入领域知识 | 领域特定语料 |
| 任务微调 | 针对下游任务优化 | 提升特定任务性能 | 任务标注数据 |
典型流程
预训练模型 → SFT(学格式) → RLHF/DPO(学偏好) → 部署模型
关键技术
- SFT(Supervised Fine-Tuning):使用高质量指令数据微调
- RLHF:基于人类反馈的强化学习
- DPO:直接偏好优化,无需奖励模型
- 参数高效微调:LoRA、Adapter、Prefix-tuning 等
为什么需要后训练
- 预训练模型只是”补全文本”,不会主动回答问题
- 可能输出有害、不准确或不符合期望的内容
- 需要注入特定领域知识或行为模式
挑战
- 对齐税(Alignment Tax):对齐可能降低某些能力
- 数据质量要求高:SFT 数据质量直接影响模型行为
- 奖励黑客(Reward Hacking):RLHF 中模型可能学会”钻空子”