🎰 多臂老虎机

探索（Exploration）与利用（Exploitation）的权衡 — 强化学习的起点。

🎯 场景介绍：你面前有 N 台老虎机，每台的中奖概率不同且未知。每次你只能拉一台，希望在有限次数内获得最多奖励。
⚠️ 注意：它不是完整的 RL——这里只有"动作"和"奖励"，没有状态转移（你拉哪台不会改变环境）。它是用来引出"探索 vs 利用"这颗 RL 最小种子的。本页提供三种场景：① 标准 5 臂 ② 10 臂更大池 ③ 非平稳 5 臂。

🎲 策略

🎚️ ε 值：0.10

🔢 步数：500

🎰 老虎机实况

当前步：0 / 500

累计奖励：0.0

最新动作：-

📊 估计价值 vs 真实价值

📈 累计奖励曲线（多策略对比）

🥧 各台被选择次数

🎲 ε-贪心

概率 ε 随机探索，概率 1-ε 选当前最优。简单直接，ε 越大越爱探索。

📈 UCB

给试得少的选项加"不确定性奖励"：Q̂(a) + c·√(ln(t)/N(a))，强迫探索冷门。

🎯 Thompson 采样

为每个动作维护一个 Beta 分布，每步从中采样后取最大。贝叶斯优雅之作。