🌱 初探强化学习

在进入任何具体算法之前,先用一张大图搞懂 RL 的全貌。

💡 一句话定义

强化学习(Reinforcement Learning, RL)是一种让智能体(Agent)在与环境(Environment)的反复互动中,通过试错学习"在什么情况下做什么能拿到最多奖励"的机器学习方法。

🔁 核心交互循环

点击下方按钮,观察 Agent 与 Environment 如何"一来一回"地交互。每一步都会高亮当前环节。

准备开始
🤖
Agent 智能体
基于当前状态做出动作决策
🌍
Environment 环境
根据动作产生新状态和奖励
🎬 动作 at
📍 新状态 st+1 + 🏆 奖励 rt
步数:0

🧩 RL 的六大要素

理解了这六个概念,就理解了 RL 的语言。每个概念都配了一个生活化类比帮你记住。

🆚 RL vs 监督学习 vs 无监督学习

它们都是机器学习,但解决的问题和使用的信号完全不同。

维度 监督学习 🎯 强化学习 无监督学习
输入信号 输入 + 标签(正确答案) 状态 + 奖励(延迟、稀疏) 只有输入,无标签
学习目标 让预测尽量贴近标签 最大化长期累计奖励 发现数据内在结构
决策方式 一次性预测(无时间维度) 序贯决策(每一步影响未来) 不做决策
反馈时机 每个样本立刻有答案 延迟奖励(可能走很多步才知好坏) 无反馈
探索 vs 利用 不涉及 核心矛盾:要不要放弃已知最优去试新的? 不涉及
典型任务 图像分类、翻译 下棋、机器人控制、大模型对齐 聚类、降维

🌟 RL 能解决什么问题?

从棋盘到大模型,RL 的应用场景一直在扩展。

🗺️ 本站学习路径

按下面的 5 篇顺序学习,你会走过完整的 RL 知识图谱。每一篇都承前启后。

🎰

准备好了吗?让我们从最简单的"多臂老虎机"开始 →

只需要会基本加减法,就能动手体会"探索 vs 利用"的取舍。

下一章 · 多臂老虎机 ▶