是否所有学习本质上都需要模型和代价函数
术语澄清
先澄清一下术语:
- “模型”可以指两类:a) 环境/动力学模型(预测状态演化);b) 用来表示映射的函数近似器/假设空间(如神经网络 fθ)。
- “代价函数”泛指学习信号/目标:损失、对数似然、奖励、适应度、约束违反度等。
结论
学习几乎总需要”表示载体”(某种模型/假设空间)和”目标准则”(某种代价/奖励/似然/约束),但它们不一定显式、不一定手工设计,也不一定是环境的动力学模型。
换句话说:不一定要有显式的”环境模型”;但一定需要能更新参数的”表示”和能指引更新方向的”学习信号”。
各范式中的体现
- 监督学习:fθ 为模型;最小化损失 L(ŷ,y) 为代价。
- 无监督/生成:最大似然或 ELBO(VAE)、对抗损失(GAN)、噪声预测损失(扩散模型)作为代价;网络本身是模型。
- 自监督/对比学习:InfoNCE、掩码预测等作为代价;编码器是模型。
- 强化学习:最大化期望回报 J(π) 为目标;可”无模型”(不建环境模型)但依然有策略/价值网络作为模型与奖励作为代价。
- MPC/最优控制:显式动力学模型 + 明确代价(轨迹误差、能耗等)。
- 进化/黑箱优化:适应度即代价;个体的参数化结构是模型。
- 逆强化/偏好学习:从示范/偏好中学”代价函数”(如 RLHF、DPO),但训练本身仍依赖似然或正则等上层目标。
总结
不一定需要显式的环境模型;但没有”表示”(模型)和”评价准则”(代价/奖励/似然/约束)就无法定义何为”更好”,也就无法进行有方向的学习。