Sean's Blog
Search
搜索
暗色模式
亮色模式
阅读模式
Explorer
Home
❯
1D 人工智能知识库
❯
_terms
❯
奖励模型
奖励模型
2026年4月29日
1分钟阅读
card/term
奖励模型:把人类偏好或任务目标转化为可评分函数的模型,常用于 RLHF 等后训练流程。
Graph View
反向链接
RLHF