「强化学习」到底是个啥?
📝 强化学习 (Reinforcement Learning) 深度学习笔记 角色设定 费曼教授 (Feynman): 擅长用直觉和比喻解释复杂概念的物理学家,注重"为什么"。 学生 (Student): 勤奋好学,喜欢追问细节和技术实现的求知者。 1. 核心定义:什么是强化学习? Student: 教授,我最近总听到 RL (Reinforcement Learning),它和我们之前学的"监督学习"有什么本质区别? Feynman: 想象一下教一只小狗坐下。你不会给它画图纸(监督学习中的 Label),也不可能直接操纵它的肌肉。你通过奖励(给骨头)或惩罚(不给骨头)来训练它。 这就是 RL 的直觉:一个智能体在环境中通过"最大化奖励"来改进策略。 严谨定义: 强化学习是智能体 (Agent) 通过与环境 (Environment) 进行交互,观察状态 ($S_t$)并执行动作 ($A_t$),在不断的试错 (Trial-and-Error) 中平衡探索与利用,旨在最大化长期累积折扣回报 ($G_t$) 的序列决策过程。 💡 关键区别: 监督学习 (Supervised Learning): 老师直接告诉你正确答案(Instruct)。 强化学习 (Reinforcement Learning): 老师只给你打分(Evaluate),你需要自己悟出怎么拿高分。 2. 基础框架:马尔可夫决策过程 (MDP) Feynman: 我们可以用一个五元组来描述 RL 的世界,这被称为 MDP。 RL 世界的五大要素 Agent (智能体): 决策的大脑。 例子: 超级马里奥、ChatGPT、自动驾驶汽车。 Environment (环境): 智能体之外的一切,规则的制定者。 例子: 游戏关卡、人类的对话反馈、物理世界。 State ($S_t$ - 状态): 智能体感知到的"现状"。 例子: 屏幕上的像素画面、当前的对话上下文历史。 Action ($A_t$ - 动作): 智能体能做的事情。 例子: 按下跳跃键、生成下一个单词"Apple"。 Reward ($R_t$ - 奖励): 环境给出的即时反馈信号(标量)。 例子: 吃到金币 (+10),掉进坑里 (-100),用户点赞 (+1)。 注意: 奖励是评估性 (Evaluative) 的,而非指示性的。它只告诉你结果好坏,不告诉你"最佳操作是什么"。 3. 核心难题与机制 Student: 听起来就是"趋利避害",那难点在哪里呢? ...