type
status
date
slug
summary
tags
category
icon
password
📝 强化学习 (Reinforcement
Learning) 学习笔记主题: 从马尔可夫决策过程到 Actor-Critic 与
RLHF角色: 费曼教授 & 学生
1. 核心定义:什么是强化学习?直觉理解: 一个智能体在环境中通过最大化奖励来改进策略。严谨定义: 强化学习是智能体通过与环境进行交互,观察状态 (S_t) 并执行动作 (A_t),在不断的试错 (Trial-and-Error) 中平衡探索与利用,旨在最大化长期累积折扣回报 (G_t) 的序列决策过程。
2. 基础框架:马尔可夫决策过程 (MDP)RL 的世界由五大要素构成:* Agent (智能体): 决策者(如:马里奥、ChatGPT)。* Environment (环境): 智能体之外的一切。* State (S_t): 智能体感知到的现状(如:屏幕像素、对话上下文)。* Action (A_t): 智能体的行为(如:跳跃、生成单词)。* Reward (R_t): 环境给出的即时反馈(标量信号)。* 注意: 奖励是评估性 (Evaluative) 的,而非指示性 (Instructive) 的。它只告诉你“好/坏”,不告诉你“正确答案”。
3. 核心难题与机制3.1 远见 vs 短视 (折扣因子 \gamma)* 我们追求的不是单步奖励 R_t,而是回报 (Return):* \gamma (0~1) 决定了智能体有多“看重未来”。3.2 信用分配 (Credit Assignment)* 问题: 现在的动作可能导致很久之后才得分(延迟奖励)。如何知道哪一步做对了?* 解决方案:价值函数 (Value Function, V 或 Q)。* 它充当“预言家”,预测处于当前状态未来能拿多少分。* 通过 贝尔曼方程 (Bellman Equation) 将未来的价值回传给现在:V(s) = R + \gamma V(s')。3.3 探索 (Exploration) vs 利用 (Exploitation)* 利用: 做当前认为最好的决定(贪婪)。* 探索: 尝试未知的动作(可能踩坑,也可能发现新捷径)。
4. 算法流派 (如何解题?)
| 流派 | 代表算法 | 核心逻辑 | 优缺点 | 适用场景 ||---|---|---|---|---|| Value-based | DQN, Q-Learning | “找价值”先算出所有动作的 Q(s,a),选分最高的 (a = \arg\max Q)。 | 缺点: 在连续动作空间中,很难通过计算找到 \arg\max。 | 离散动作(如:走迷宫、雅达利游戏) || Policy-based | Policy Gradient (REINFORCE) | “学概率”直接输出动作的概率分布 \pi(a\|s,从中采样。 | 优点: 天然支持连续动作。缺点: 学习慢,方差大。 | 连续动作(如:机械臂控制) || Actor-Critic | A3C, PPO | “动静结合”Actor (运动员): 输出动作。Critic (教练): 打分,计算 TD Error。 | SOTA (当前最强): 结合了 Policy 的灵活性和 Value 的稳健性。 | 复杂场景(如:Dota 2, ChatGPT) |关键认知: 在 Actor-Critic 中,TD Error (预测误差) 同时用于:* 更新 Critic(让教练眼光更准)。* 更新 Actor(让运动员倾向于做被教练夸奖的动作)。
5. 前沿应用:RLHF (ChatGPT 背后的技术)全称: Reinforcement Learning from Human Feedback核心流程:* SFT (有监督微调): 学习基本的对话能力。* Reward Modeling (奖励模型):* 痛点: 人类不可能实时给 AI 的每一次尝试打分(太慢、太贵)。* 解法: 训练一个 Reward Model (RM) 来模仿人类的喜好。* PPO (强化学习):* Agent (GPT) 生成文本。* Environment (RM) 给出奖励分数。* 使用 Actor-Critic 架构优化 GPT 的策略,使其生成内容更符合人类偏好。
6. 费曼教授的总结 (Cheat Sheet)* Reward 只是信号,Value 才是真知灼见。* Value-based 怕连续动作(算不过来)。* Policy-based 怕方差大(学得太慢)。* Actor-Critic 是两者的“联姻”,也是目前的工业界标准。
- Author:王云卿
- URL:http://preview.tangly1024.com/article/2dd4fbf4-dffe-8008-a6d9-ccae04294970
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
