什么是预训练(Pre-training)

预训练是指在大规模无标注或弱标注数据上进行的初始训练阶段,目标是让模型学习通用的表示和知识。

核心特点

  • 数据规模大:通常使用海量互联网文本、图像等数据
  • 自监督目标:如语言模型的下一词预测、掩码语言建模(MLM)、对比学习等
  • 学习通用能力:语法、语义、常识、推理模式等”世界知识”
  • 计算成本高:需要大量 GPU/TPU 资源,训练时间长达数周至数月

典型例子

  • GPT 系列:自回归预测下一个 token
  • BERT:掩码语言建模 + 下一句预测
  • CLIP:图文对比学习
  • 视频生成模型:预测下一帧或重建被遮挡区域

什么是后训练(Post-training)

后训练是预训练完成后的进一步训练阶段,目的是将通用模型适配到特定任务或对齐人类偏好。

后训练的主要形式

阶段方法目标数据特点
监督微调(SFT)在指令-回答对上微调学习遵循指令的格式和风格高质量人工标注,数据量较小
对齐训练(RLHF/DPO)强化学习或直接偏好优化对齐人类价值观和偏好人类偏好排序数据
持续预训练在领域数据上继续预训练注入领域知识领域特定语料
任务微调针对下游任务优化提升特定任务性能任务标注数据

关键区别

  • 预训练:学”是什么”(知识、模式)
  • 后训练:学”怎么做”(行为、偏好、格式)

世界模型生成的数据适合做什么训练

世界模型(World Model)是能够模拟环境动态、预测未来状态的模型。其生成的合成数据有多种训练用途:

1. 强化学习的策略训练(最主要用途)

真实世界 → 世界模型学习动态 → 生成模拟轨迹 → 训练策略网络
  • 优势:减少真实环境交互次数,降低成本和风险
  • 典型方法:Dreamer、MuZero、IRIS
  • 适用场景:机器人控制、自动驾驶、游戏 AI

2. 数据增强(Data Augmentation)

  • 扩充稀缺场景的训练数据(如罕见交通事故场景)
  • 生成多样化的状态-动作对
  • 平衡数据分布,改善模型泛化

3. 预训练视觉/多模态模型

世界模型生成的视频数据可用于:

  • 视频理解模型的预训练
  • 时序表示学习
  • 动作预测模型训练

4. 规划与决策能力训练

  • 训练模型进行多步推演
  • 学习因果关系和物理规律
  • 提升长程规划能力

5. 不适合的场景

不适合原因
替代真实数据做 SFT合成数据可能引入系统性偏差
直接用于偏好对齐缺乏真实人类偏好信号
要求高保真度的场景世界模型本身存在误差累积

实践建议

  1. 混合训练:合成数据 + 真实数据混合使用,避免分布偏移
  2. 模型验证:在真实数据上验证世界模型生成数据训练的效果
  3. 迭代更新:用真实交互数据持续改进世界模型
  4. 关注 sim-to-real gap:合成数据与真实数据的差异需要专门处理

总结

┌─────────────────────────────────────────────────────────────┐
│                      模型训练流程                            │
├─────────────────────────────────────────────────────────────┤
│  预训练              后训练                 应用              │
│  ────────          ─────────             ──────            │
│  大规模数据    →    SFT/RLHF/DPO    →    特定任务           │
│  自监督学习         人工标注数据           推理部署           │
│  通用知识           行为对齐                                 │
├─────────────────────────────────────────────────────────────┤
│  世界模型数据主要用于:                                       │
│  • 强化学习中的策略训练(在模拟环境中学习)                    │
│  • 数据增强(扩充稀缺场景)                                   │
│  • 多模态预训练(视频理解等)                                 │
└─────────────────────────────────────────────────────────────┘

相关概念