标签: 强化学习 - Yunqing's Blog

强化学习是机器学习三大范式之一。智能体在环境中通过试错，学习如何最大化长期奖励。本文从零讲清楚 MDP 框架、贝尔曼方程、三大算法流派，以及 RLHF 如何训练 ChatGPT。

强化学习