后训练(Post-training)是指在预训练完成后,对模型进行的进一步训练阶段,目的是将通用基础模型适配到特定任务或对齐人类偏好。

核心要点

  • 目的:让模型从”会说话”变成”会好好说话”,从学知识转向学行为
  • 与预训练的区别
    • 预训练:学习”世界是什么样的”(知识、语言规律)
    • 后训练:学习”应该怎么做”(遵循指令、符合偏好)

主要形式

阶段方法目标数据特点
监督微调(SFT)在指令-回答对上微调学习遵循指令的格式和风格高质量人工标注,数量较小(数千~数万条)
对齐训练RLHFDPO对齐人类价值观和偏好人类偏好排序/比较数据
持续预训练在领域数据上继续预训练注入领域知识领域特定语料
任务微调针对下游任务优化提升特定任务性能任务标注数据

典型流程

预训练模型 → SFT(学格式) → RLHF/DPO(学偏好) → 部署模型

关键技术

  • SFT(Supervised Fine-Tuning):使用高质量指令数据微调
  • RLHF:基于人类反馈的强化学习
  • DPO:直接偏好优化,无需奖励模型
  • 参数高效微调:LoRA、Adapter、Prefix-tuning 等

为什么需要后训练

  1. 预训练模型只是”补全文本”,不会主动回答问题
  2. 可能输出有害、不准确或不符合期望的内容
  3. 需要注入特定领域知识或行为模式

挑战

  • 对齐税(Alignment Tax):对齐可能降低某些能力
  • 数据质量要求高:SFT 数据质量直接影响模型行为
  • 奖励黑客(Reward Hacking):RLHF 中模型可能学会”钻空子”

相关概念