「强化学习」到底是个啥?
强化学习是什么? 一句话:智能体在环境中通过试错,学习如何最大化长期奖励。 学习类型 特点 比喻 监督学习 老师直接告诉你答案 看答案书做题 强化学习 老师只给你打分 训练小狗做动作 RL 世界的五大要素(MDP 框架) Agent(智能体) → 决策的大脑(如:马里奥) ↓ Environment(环境) → 规则的制定者(如:游戏关卡) ↓ State(状态) → 智能体看到的"现状"(如:屏幕画面) ↓ Action(动作) → 智能体能做的事(如:按跳跃键) ↓ Reward(奖励) → 环境给的分(如:金币+10,掉坑-100) 要素 含义 例子 Agent 决策的大脑 马里奥、ChatGPT、自动驾驶 Environment 规则的制定者 游戏关卡、物理世界 State 智能体感知的"现状" 屏幕像素、对话历史 Action 智能体能做的事 按跳跃键、生成下一个词 Reward 环境给的即时反馈 金币+10、掉坑-100、用户点赞+1 注意:奖励是评估性的,不是指示性的。它只告诉你结果好坏,不告诉你"最佳操作是什么"。 核心难题 听起来就是"趋利避害",那难点在哪里? 1. 远见 vs 短视(折扣因子 γ) 我们追求的不是单步奖励 Rt,而是回报 Return Gt: Gt = Rt+1 + γ·Rt+2 + γ²·Rt+3 + … ...