强化学习分类

强化学习概述

强化学习（Reinforcement Learning, RL）研究的是智能体（agent）如何通过与环境（environment）的交互，在不断试错（trial-and-error）的过程中学习一个策略（policy），以最大化长期累积回报（expected cumulative return）。

强化学习是机器学习的第三范式，与监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）并列。

发展简史

强化学习的发展融合了多个研究方向：

Goat_Yang2026/1/19大约 3 分钟

贝尔曼公式

对于单过程：

S_t \xrightarrow{A_t} R_{t+1},\, S_{t+1}

Goat_Yang2026/1/19大约 5 分钟

贝尔曼最优公式

最优策略 Optimal policy

状态价值可用于评估策略的优劣：若对所有状态 $s \in \mathcal{S}$ ，都满足

Goat_Yang2026/1/19大约 3 分钟

值迭代与策略迭代

值迭代

即对贝尔曼最优公式进行迭代求解

算法步骤

Step 1: 策略更新 policy update

值迭代每轮会根据当前 $v_k$ 计算 $q_k(s,a)$ ，然后在每个状态选取使 $q_k$ 最大的动作：

Goat_Yang2026/1/19大约 4 分钟

蒙特卡罗方法

本文开始介绍无需模型（model-free）的强化学习方法。没有模型就通过数据去找到最优策略。对期望值进行估计。

MC Basic：最简单的基于蒙特卡洛的算法

通过修改前文的策略迭代算法得到，即将其中的基于模型的策略评价模块替换为无需模型的策略评价模块。

将策略迭代算法转换为无需模型

算法示例：期望值估计

▷ 如何计算均值 $\bar{x}$ ？

Goat_Yang2026/1/19大约 11 分钟

时序差分方法

TD算法与MC算法最大的不同在于它是增量式的。

TD算法指一大类强化学习算法，也指一个特殊的进行状态值估计的算法

状态值估计：最基础的时序差分方法

问题陈述

给定策略 $\pi$ ，目标是估计在策略 $\pi$ 下的状态价值 $\{v_{\pi}(s)\}_{s \in \mathcal{S}}$ 。
经验样本为： ${\color{blue}(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots)}$ 或 ${\color{blue}\{(s_t, r_{t+1}, s_{t+1})\}_t}$ 它们是由策略 $\pi$ 生成的。

Goat_Yang2026/1/19大约 17 分钟

值函数方法

价值表示：从表格到函数

由表格转为函数，由离散转为连续。用函数拟合连续的状态价值

\hat{v}(s) = as + b

Goat_Yang2026/1/19大约 16 分钟

策略梯度算法

在本文中，我们将从

基于价值的方法转向基于策略的方法
基于价值函数的方法转向策略函数方法（或称为策略梯度方法）

策略表示：从表格到函数

以前，策略是通过表格表示的：

所有状态的动作概率存储在表格 $\pi(a|s)$ 中。表格中的每个条目由状态和动作索引。

Goat_Yang2026/1/19大约 11 分钟

演员-评论家方法

Actor-critic 方法仍然属于策略梯度方法。

它们强调将策略梯度方法与价值函数方法相结合的结构。

什么是“actor”和“critic”？

这里，“actor”指的是策略更新（policy update）。之所以称为 actor，是因为策略将被用于选择动作。
这里，“critic”指的是策略评估（policy evaluation）或价值估计（value estimation）。之所以称为 critic，是因为它通过评估策略来“批评”策略。

Goat_Yang2026/1/19大约 12 分钟