后训练

后训练（Post-training）是指在预训练完成后，对模型进行的进一步训练阶段，目的是将通用基础模型适配到特定任务或对齐人类偏好。

核心要点

目的：让模型从”会说话”变成”会好好说话”，从学知识转向学行为
与预训练的区别：
- 预训练：学习”世界是什么样的”（知识、语言规律）
- 后训练：学习”应该怎么做”（遵循指令、符合偏好）

主要形式

阶段	方法	目标	数据特点
监督微调（SFT）	在指令-回答对上微调	学习遵循指令的格式和风格	高质量人工标注，数量较小（数千~数万条）
对齐训练	RLHF、DPO 等	对齐人类价值观和偏好	人类偏好排序/比较数据
持续预训练	在领域数据上继续预训练	注入领域知识	领域特定语料
任务微调	针对下游任务优化	提升特定任务性能	任务标注数据

典型流程

预训练模型 → SFT（学格式） → RLHF/DPO（学偏好） → 部署模型

关键技术

SFT（Supervised Fine-Tuning）：使用高质量指令数据微调
RLHF：基于人类反馈的强化学习
DPO：直接偏好优化，无需奖励模型
参数高效微调：LoRA、Adapter、Prefix-tuning 等

为什么需要后训练

预训练模型只是”补全文本”，不会主动回答问题
可能输出有害、不准确或不符合期望的内容
需要注入特定领域知识或行为模式

挑战

对齐税（Alignment Tax）：对齐可能降低某些能力
数据质量要求高：SFT 数据质量直接影响模型行为
奖励黑客（Reward Hacking）：RLHF 中模型可能学会”钻空子”

相关概念

预训练 / RLHF / DPO
监督微调 / 指令微调