Sean's Blog

❯

1D 人工智能知识库

❯

❯

PPO

2026年4月29日1分钟阅读

card/term

PPO：Proximal Policy Optimization，一种限制策略更新幅度以提升稳定性的策略梯度强化学习算法。

Graph View

反向链接

DPO
RLHF

Created with Quartz © 2026

GitHub
Email
RSS