在网格世界中直观理解状态、动作、奖励与价值函数。
🎯 MDP 五元组:<状态 S, 动作 A, 转移 P, 奖励 R, 折扣 γ>。
🎯 场景介绍:一个 4×4 网格世界——机器人 🤖 从左上角 🏁 出发,想到右下角 💎 拿宝藏,沿途要避开 💣 陷阱;每走一步都有代价。
调节 γ 会实时重算 V(s) 热力图(使用简单的随机策略评估)。滑动概率越大,动作越不听话。
点击任意格子查看详情...
当前处于哪个格子就是状态。这里共 16 个状态。
可选:↑ → ↓ ←。每步有滑动概率导致偏移。
到达 💎 +10,踩到 💣 -10,每步 -1(鼓励效率)。