偏好学习:从人类或系统给出的比较、排序、选择等偏好信号中学习目标函数或策略的训练范式。