奖励模型:把人类偏好或任务目标转化为可评分函数的模型,常用于 RLHF 等后训练流程。