强化学习(Reinforcement Learning, RL)研究的是智能体(agent)如何通过与环境(environment)的交互,在不断试错(trial-and-error)的过程中学习一个策略(policy),以最大化长期累积回报(expected cumulative return)。
强化学习是机器学习的第三范式,与监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)并列。
发展简史
强化学习的发展融合了多个研究方向:
强化学习(Reinforcement Learning, RL)研究的是智能体(agent)如何通过与环境(environment)的交互,在不断试错(trial-and-error)的过程中学习一个策略(policy),以最大化长期累积回报(expected cumulative return)。
强化学习是机器学习的第三范式,与监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)并列。
强化学习的发展融合了多个研究方向:
即对贝尔曼最优公式进行迭代求解
值迭代每轮会根据当前 vk 计算 qk(s,a),然后在每个状态选取使 qk 最大的动作:
本文开始介绍无需模型(model-free)的强化学习方法。没有模型就通过数据去找到最优策略。对期望值进行估计。
通过修改前文的策略迭代算法得到,即将其中的基于模型的策略评价模块替换为无需模型的策略评价模块。
相关信息
策略迭代算法的核心是计算动作值 qπk(s,a) 。
随机逼近(SA)是指一大类随机迭代算法,用于求解求根问题或优化问题。
与许多其他求根算法(例如基于梯度的方法)相比,
SA 的强大之处在于:它不需要知道目标函数的具体表达式,也不需要其导数。
▷ 如何计算均值 xˉ?
TD算法与MC算法最大的不同在于它是增量式的。
TD算法指一大类强化学习算法,也指一个特殊的进行状态值估计的算法
在本文中,我们将从
以前,策略是通过表格表示的: