跳至主要內容

强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结

强化学习

Goat_Yang2025/6/19约 53 字小于 1 分钟

这里会持续更新从价值函数、动态规划到策略方法和现代框架的强化学习方向文章。

目录

强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结

在 GitHub 上编辑此页

最近更新: 2026/3/23 07:36

贡献者: Yang-goat

希望能给您提供帮助

Copyright © 2026 Goat_Yang