在进入任何具体算法之前,先用一张大图搞懂 RL 的全貌。
点击下方按钮,观察 Agent 与 Environment 如何"一来一回"地交互。每一步都会高亮当前环节。
理解了这六个概念,就理解了 RL 的语言。每个概念都配了一个生活化类比帮你记住。
它们都是机器学习,但解决的问题和使用的信号完全不同。
| 维度 | 监督学习 | 🎯 强化学习 | 无监督学习 |
|---|---|---|---|
| 输入信号 | 输入 + 标签(正确答案) | 状态 + 奖励(延迟、稀疏) | 只有输入,无标签 |
| 学习目标 | 让预测尽量贴近标签 | 最大化长期累计奖励 | 发现数据内在结构 |
| 决策方式 | 一次性预测(无时间维度) | 序贯决策(每一步影响未来) | 不做决策 |
| 反馈时机 | 每个样本立刻有答案 | 延迟奖励(可能走很多步才知好坏) | 无反馈 |
| 探索 vs 利用 | 不涉及 | 核心矛盾:要不要放弃已知最优去试新的? | 不涉及 |
| 典型任务 | 图像分类、翻译 | 下棋、机器人控制、大模型对齐 | 聚类、降维 |
从棋盘到大模型,RL 的应用场景一直在扩展。
按下面的 5 篇顺序学习,你会走过完整的 RL 知识图谱。每一篇都承前启后。
只需要会基本加减法,就能动手体会"探索 vs 利用"的取舍。
下一章 · 多臂老虎机 ▶