🌱 初探强化学习

在进入任何具体算法之前，先用一张大图搞懂 RL 的全貌。

强化学习（Reinforcement Learning, RL）是一种让智能体（Agent）在与环境（Environment）的反复互动中，通过试错学习"在什么情况下做什么能拿到最多奖励"的机器学习方法。

点击下方按钮，观察 Agent 与 Environment 如何"一来一回"地交互。每一步都会高亮当前环节。

准备开始

🤖

Agent 智能体

基于当前状态做出动作决策

🌍

Environment 环境

根据动作产生新状态和奖励

🎬 动作 a_t

📍 新状态 s_t+1 + 🏆 奖励 r_t

步数：0

理解了这六个概念，就理解了 RL 的语言。每个概念都配了一个生活化类比帮你记住。

它们都是机器学习，但解决的问题和使用的信号完全不同。

维度	监督学习	🎯 强化学习	无监督学习
输入信号	输入 + 标签（正确答案）	状态 + 奖励（延迟、稀疏）	只有输入，无标签
学习目标	让预测尽量贴近标签	最大化长期累计奖励	发现数据内在结构
决策方式	一次性预测（无时间维度）	序贯决策（每一步影响未来）	不做决策
反馈时机	每个样本立刻有答案	延迟奖励（可能走很多步才知好坏）	无反馈
探索 vs 利用	不涉及	核心矛盾：要不要放弃已知最优去试新的？	不涉及
典型任务	图像分类、翻译	下棋、机器人控制、大模型对齐	聚类、降维

从棋盘到大模型，RL 的应用场景一直在扩展。

按下面的 5 篇顺序学习，你会走过完整的 RL 知识图谱。每一篇都承前启后。

🎰

只需要会基本加减法，就能动手体会"探索 vs 利用"的取舍。