状态价值可用于评估策略的优劣:若对所有状态 s∈S ,都满足
vπ1(s)≥vπ2(s)
则策略 π1 优于 π2。
若对所有状态 s 和任意其他策略 π,都满足 vπ∗(s)≥vπ(s),则策略 π∗ 是 最优策略。
v(s)=πmaxa∑π(a∣s)(r∑p(r∣s,a)r+γs′∑p(s′∣s,a)v(s′)),s∈S=πmaxa∑π(a∣s)q(s,a),s∈S
v=πmax(rπ+γPπv)
未知量有 v(s),π(a∣s),v(s′)
由于 ∑aπ(a∣s)=1, 有
v(s)=πmaxa∑π(a∣s)(r∑p(r∣s,a)r+γs′∑p(s′∣s,a)v(s′)),∀s∈S=πmaxa∑π(a∣s)q(s,a)=a∈A(s)maxq(s,a).
其中,当且仅当
π(a∣s)={1,0,a=a∗a=a∗
时达到最优。这里
a∗=argamaxq(s,a).
令
f(v):=πmax(rπ+γPπv).
则 Bellman 最优方程可写为
v=f(v).
其中
[f(v)]s=πmaxa∑π(a∣s)q(s,a),s∈S.
相关信息
f(v)为大小为 size(s) 的向量
定理: 算子 f(v) 是一个压缩映射,满足
∥f(v1)−f(v2)∥≤γ∥v1−v2∥,
其中 γ 为折扣因子。
由压缩映射定理得:
对于 Bellman 最优方程
v=f(v)=πmax(rπ+γPπv),
总是存在一个解 v∗,且该解是唯一的。
该解可以通过如下迭代方式求得:
vk+1=f(vk)=πmax(rπ+γPπvk),(1)
对任意初始猜测 v0,序列 {vk} 都将以指数速度收敛到 v∗。
其收敛速度由折扣因子 γ 决定。
假设 v∗ 是 Bellman 最优方程的解,则其满足
v∗=πmax(rπ+γPπv∗).
再假设
π∗=argπmax(rπ+γPπv∗).
则有
v∗=rπ∗+γPπ∗v∗.
因此,π∗ 是一个策略,且 v∗=vπ∗ 为该策略对应的状态价值函数。
设 v∗ 是方程v=maxπ(rπ+γPπv)的唯一解,且对任意给定策略 π,vπ 为满足vπ=rπ+γPπvπ的状态价值函数,则有
v∗≥vπ,∀π.
对任意 s∈S,定义确定性的贪心策略
π∗(a∣s)={1,0,a=a∗(s),a=a∗(s),
则该策略是求解 Bellman 最优方程的一个最优策略。
其中
a∗(s)=argamaxq∗(a,s),
而
q∗(s,a)=r∑p(r∣s,a)r+γs′∑p(s′∣s,a)v∗(s′).
相关信息
即最优策略为总选择 state value 最大的那一个 action
- 系统环境模型:p(s′∣s,a),p(r∣s,a)
- 奖励设计:r
- rforbidden越大越会绕开
- 对 r 进行线性变换A(系数大于零),最优策略不会改变
- 贴现率:γ