跳至主要內容

强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结

强化学习

Goat_Yang2025/6/19约 56 字小于 1 分钟

强化学习部分按学习顺序整理，从概述、贝尔曼公式到策略梯度与演员-评论家方法逐步推进。

目录

强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结

在 GitHub 上编辑此页

最近更新：2026/3/20 02:17

贡献者: Yang-goat

希望能给您提供帮助

Copyright © 2026 Goat_Yang