文章 - Yunqing's Blog

「强化学习」到底是个啥？

强化学习是机器学习三大范式之一。智能体在环境中通过试错，学习如何最大化长期奖励。本文从零讲清楚 MDP 框架、贝尔曼方程、三大算法流派，以及 RLHF 如何训练 ChatGPT。

同样的 AI，为什么有人用出了效率神器，有人却只能得到废话？这篇文章拆解 Prompt Engineering 的底层逻辑，教你从 GIGO 走向精准掌控。

这是我用 Hugo + PaperMod 搭建的个人博客的第一篇文章，记录一个开始。