Yunqing
首页 文章 作品集 标签 归档 搜索 关于
首页 文章 作品集 标签 归档 搜索 关于
全部标签

机器学习

1 个内容

文章

2026年1月7日 6 分钟

「强化学习」到底是个啥?

强化学习是机器学习三大范式之一。智能体在环境中通过试错,学习如何最大化长期奖励。本文从零讲清楚 MDP 框架、贝尔曼方程、三大算法流派,以及 RLHF 如何训练 ChatGPT。

© 2026 Yunqing · 用心记录,安静生长