🗺️ 马尔可夫决策过程（MDP）

在网格世界中直观理解状态、动作、奖励与价值函数。

🎯 MDP 五元组：<状态 S, 动作 A, 转移 P, 奖励 R, 折扣 γ>。
🎯 场景介绍：一个 4×4 网格世界——机器人 🤖 从左上角 🏁 出发，想到右下角 💎 拿宝藏，沿途要避开 💣 陷阱；每走一步都有代价。

折扣因子 γ: 0.90 滑动概率（噪声）: 0.10

调节 γ 会实时重算 V(s) 热力图（使用简单的随机策略评估）。滑动概率越大，动作越不听话。

点击任意格子查看详情...

当前处于哪个格子就是状态。这里共 16 个状态。

可选：↑ → ↓ ←。每步有滑动概率导致偏移。

到达 💎 +10，踩到 💣 -10，每步 -1（鼓励效率）。