Sean's Blog

❯

1D 人工智能知识库

❯

❯

是否所有学习本质上都需要模型和代价函数

是否所有学习本质上都需要模型和代价函数

2026年3月20日3分钟阅读

type/note
topic/ai

是否所有学习本质上都需要模型和代价函数

术语澄清

先澄清一下术语：

“模型”可以指两类：a) 环境/动力学模型（预测状态演化）；b) 用来表示映射的函数近似器/假设空间（如神经网络 fθ）。
“代价函数”泛指学习信号/目标：损失、对数似然、奖励、适应度、约束违反度等。

结论

学习几乎总需要”表示载体”（某种模型/假设空间）和”目标准则”（某种代价/奖励/似然/约束），但它们不一定显式、不一定手工设计，也不一定是环境的动力学模型。

换句话说：不一定要有显式的”环境模型”；但一定需要能更新参数的”表示”和能指引更新方向的”学习信号”。

各范式中的体现

监督学习：fθ 为模型；最小化损失 L(ŷ,y) 为代价。
无监督/生成：最大似然或 ELBO（VAE）、对抗损失（GAN）、噪声预测损失（扩散模型）作为代价；网络本身是模型。
自监督/对比学习：InfoNCE、掩码预测等作为代价；编码器是模型。
强化学习：最大化期望回报 J(π) 为目标；可”无模型”（不建环境模型）但依然有策略/价值网络作为模型与奖励作为代价。
MPC/最优控制：显式动力学模型 + 明确代价（轨迹误差、能耗等）。
进化/黑箱优化：适应度即代价；个体的参数化结构是模型。
逆强化/偏好学习：从示范/偏好中学”代价函数”（如 RLHF、DPO），但训练本身仍依赖似然或正则等上层目标。

总结

不一定需要显式的环境模型；但没有”表示”（模型）和”评价准则”（代价/奖励/似然/约束）就无法定义何为”更好”，也就无法进行有方向的学习。

目录

是否所有学习本质上都需要模型和代价函数
术语澄清
结论
各范式中的体现
总结

Graph View

Created with Quartz © 2026

GitHub
Email
RSS