🎰 多臂老虎机

探索(Exploration)与利用(Exploitation)的权衡 — 强化学习的起点。

🎯 场景:你面前有 N 台老虎机,每台的中奖概率不同且未知。每次你只能拉一台,你希望在有限次数内获得最多奖励。

🎰 老虎机实况

当前步:0 / 500
累计奖励:0.0
最新动作:-

📊 估计价值 vs 真实价值

📈 累计奖励曲线(多策略对比)

🥧 各台被选择次数

🎲 ε-贪心

概率 ε 随机探索,概率 1-ε 选当前最优。简单直接,ε 越大越爱探索。

📈 UCB

给试得少的选项加"不确定性奖励":Q̂(a) + c·√(ln(t)/N(a)),强迫探索冷门。

🎯 Thompson 采样

为每个动作维护一个 Beta 分布,每步从中采样后取最大。贝叶斯优雅之作。