Sean's Blog

❯

1D 人工智能知识库

❯

❯

奖励模型

2026年4月29日1分钟阅读

card/term

奖励模型：把人类偏好或任务目标转化为可评分函数的模型，常用于 RLHF 等后训练流程。

Graph View

反向链接

RLHF

Created with Quartz © 2026

GitHub
Email
RSS