✂️ PPO · 近端策略优化

工业界最广泛使用的强化学习算法 —— 用"裁剪"替代复杂约束，简单又高效

🎯 场景介绍：一个 PPO 裁剪目标函数的数学可视化。横轴是概率比 r = π_new/π_old，纵轴是目标函数值。你可以改变优势 A 和裁剪系数 ε，实时看 PPO 的行为。

核心公式： L^CLIP = 𝔼[ min( r(θ)·A, clip(r(θ), 1-ε, 1+ε)·A ) ]，其中 r(θ) = π_新/π_旧

拖动滑块改变 A 的符号与 ε 值，观察裁剪行为

优势 A: +1.0 裁剪 ε: 0.20

🎯 裁剪区间：
[1-ε, 1+ε] = [0.80, 1.20]

A > 0：正优势，想增大概率比，但不能超过 1+ε。
A < 0：负优势，想减小概率比，但不能低于 1-ε。

🎲

1. 采样

用 π_old 采 N 步经验

📏

2. 计算 GAE

Generalized Advantage Estimation

🔄

3. 多轮更新

同一批数据更新策略 K 轮（含裁剪）