✂️ PPO · 近端策略优化

工业界最广泛使用的强化学习算法 —— 用"裁剪"替代复杂约束,简单又高效

🎯 场景介绍:一个 PPO 裁剪目标函数的数学可视化。横轴是概率比 r = πnewold,纵轴是目标函数值。你可以改变优势 A 和裁剪系数 ε,实时看 PPO 的行为。

核心公式: LCLIP = 𝔼[ min( r(θ)·A, clip(r(θ), 1-ε, 1+ε)·A ) ],其中 r(θ) = π

✂️ 裁剪目标函数可视化

拖动滑块改变 A 的符号与 ε 值,观察裁剪行为

🎚️ 参数

🎯 裁剪区间:
[1-ε, 1+ε] = [0.80, 1.20]

A > 0:正优势,想增大概率比,但不能超过 1+ε。
A < 0:负优势,想减小概率比,但不能低于 1-ε。
🎲
1. 采样

用 πold 采 N 步经验

📏
2. 计算 GAE

Generalized Advantage Estimation

🔄
3. 多轮更新

同一批数据更新策略 K 轮(含裁剪)

📊 三算法对比(REINFORCE/TRPO/PPO)

💡 为什么 PPO 红?

  • 简单:不需要 Hessian、不需要求解二阶优化
  • 稳定:clip 天然限制了更新幅度
  • 高效:同一批数据可更新多轮,样本利用率高
  • 通用:从 Atari 游戏到 ChatGPT 都能用