工业界最广泛使用的强化学习算法 —— 用"裁剪"替代复杂约束,简单又高效
🎯 场景介绍:一个 PPO 裁剪目标函数的数学可视化。横轴是概率比 r = πnew/πold,纵轴是目标函数值。你可以改变优势 A 和裁剪系数 ε,实时看 PPO 的行为。
核心公式: LCLIP = 𝔼[ min( r(θ)·A, clip(r(θ), 1-ε, 1+ε)·A ) ],其中 r(θ) = π新/π旧
拖动滑块改变 A 的符号与 ε 值,观察裁剪行为
用 πold 采 N 步经验
Generalized Advantage Estimation
同一批数据更新策略 K 轮(含裁剪)