Sean's Blog

❯

1D 人工智能知识库

❯

❯

偏好学习

2026年4月29日1分钟阅读

card/term

偏好学习：从人类或系统给出的比较、排序、选择等偏好信号中学习目标函数或策略的训练范式。

Graph View

反向链接

DPO

Created with Quartz © 2026

GitHub
Email
RSS