Sean's Blog
Search
搜索
暗色模式
亮色模式
阅读模式
Explorer
Home
❯
1D 人工智能知识库
❯
_terms
❯
PPO
PPO
2026年4月29日
1分钟阅读
card/term
PPO:Proximal Policy Optimization,一种限制策略更新幅度以提升稳定性的策略梯度强化学习算法。
Graph View
反向链接
DPO
RLHF