探索(Exploration)与利用(Exploitation)的权衡 — 强化学习的起点。
🎯 场景:你面前有 N 台老虎机,每台的中奖概率不同且未知。每次你只能拉一台,你希望在有限次数内获得最多奖励。
概率 ε 随机探索,概率 1-ε 选当前最优。简单直接,ε 越大越爱探索。
给试得少的选项加"不确定性奖励":Q̂(a) + c·√(ln(t)/N(a)),强迫探索冷门。
为每个动作维护一个 Beta 分布,每步从中采样后取最大。贝叶斯优雅之作。