什么是预训练(Pre-training)
预训练是指在大规模无标注或弱标注数据上进行的初始训练阶段,目标是让模型学习通用的表示和知识。
核心特点:
- 数据规模大:通常使用海量互联网文本、图像等数据
- 自监督目标:如语言模型的下一词预测、掩码语言建模(MLM)、对比学习等
- 学习通用能力:语法、语义、常识、推理模式等”世界知识”
- 计算成本高:需要大量 GPU/TPU 资源,训练时间长达数周至数月
典型例子:
- GPT 系列:自回归预测下一个 token
- BERT:掩码语言建模 + 下一句预测
- CLIP:图文对比学习
- 视频生成模型:预测下一帧或重建被遮挡区域
什么是后训练(Post-training)
后训练是预训练完成后的进一步训练阶段,目的是将通用模型适配到特定任务或对齐人类偏好。
后训练的主要形式
| 阶段 | 方法 | 目标 | 数据特点 |
|---|---|---|---|
| 监督微调(SFT) | 在指令-回答对上微调 | 学习遵循指令的格式和风格 | 高质量人工标注,数据量较小 |
| 对齐训练(RLHF/DPO) | 强化学习或直接偏好优化 | 对齐人类价值观和偏好 | 人类偏好排序数据 |
| 持续预训练 | 在领域数据上继续预训练 | 注入领域知识 | 领域特定语料 |
| 任务微调 | 针对下游任务优化 | 提升特定任务性能 | 任务标注数据 |
关键区别:
- 预训练:学”是什么”(知识、模式)
- 后训练:学”怎么做”(行为、偏好、格式)
世界模型生成的数据适合做什么训练
世界模型(World Model)是能够模拟环境动态、预测未来状态的模型。其生成的合成数据有多种训练用途:
1. 强化学习的策略训练(最主要用途)
真实世界 → 世界模型学习动态 → 生成模拟轨迹 → 训练策略网络
- 优势:减少真实环境交互次数,降低成本和风险
- 典型方法:Dreamer、MuZero、IRIS
- 适用场景:机器人控制、自动驾驶、游戏 AI
2. 数据增强(Data Augmentation)
- 扩充稀缺场景的训练数据(如罕见交通事故场景)
- 生成多样化的状态-动作对
- 平衡数据分布,改善模型泛化
3. 预训练视觉/多模态模型
世界模型生成的视频数据可用于:
- 视频理解模型的预训练
- 时序表示学习
- 动作预测模型训练
4. 规划与决策能力训练
- 训练模型进行多步推演
- 学习因果关系和物理规律
- 提升长程规划能力
5. 不适合的场景
| 不适合 | 原因 |
|---|---|
| 替代真实数据做 SFT | 合成数据可能引入系统性偏差 |
| 直接用于偏好对齐 | 缺乏真实人类偏好信号 |
| 要求高保真度的场景 | 世界模型本身存在误差累积 |
实践建议
- 混合训练:合成数据 + 真实数据混合使用,避免分布偏移
- 模型验证:在真实数据上验证世界模型生成数据训练的效果
- 迭代更新:用真实交互数据持续改进世界模型
- 关注 sim-to-real gap:合成数据与真实数据的差异需要专门处理
总结
┌─────────────────────────────────────────────────────────────┐
│ 模型训练流程 │
├─────────────────────────────────────────────────────────────┤
│ 预训练 后训练 应用 │
│ ──────── ───────── ────── │
│ 大规模数据 → SFT/RLHF/DPO → 特定任务 │
│ 自监督学习 人工标注数据 推理部署 │
│ 通用知识 行为对齐 │
├─────────────────────────────────────────────────────────────┤
│ 世界模型数据主要用于: │
│ • 强化学习中的策略训练(在模拟环境中学习) │
│ • 数据增强(扩充稀缺场景) │
│ • 多模态预训练(视频理解等) │
└─────────────────────────────────────────────────────────────┘