🎰 多臂老虎机

探索(Exploration)与利用(Exploitation)的权衡 — 强化学习的起点。

🎯 场景介绍:你面前有 N 台老虎机,每台的中奖概率不同且未知。每次你只能拉一台,希望在有限次数内获得最多奖励。
⚠️ 注意:它不是完整的 RL——这里只有"动作"和"奖励",没有状态转移(你拉哪台不会改变环境)。它是用来引出"探索 vs 利用"这颗 RL 最小种子的。本页提供三种场景:① 标准 5 臂 ② 10 臂更大池 ③ 非平稳 5 臂。

🎰 老虎机实况

当前步:0 / 500
累计奖励:0.0
最新动作:-

📊 估计价值 vs 真实价值

📈 累计奖励曲线(多策略对比)

🥧 各台被选择次数

🎲 ε-贪心

概率 ε 随机探索,概率 1-ε 选当前最优。简单直接,ε 越大越爱探索。

📈 UCB

给试得少的选项加"不确定性奖励":Q̂(a) + c·√(ln(t)/N(a)),强迫探索冷门。

🎯 Thompson 采样

为每个动作维护一个 Beta 分布,每步从中采样后取最大。贝叶斯优雅之作。