跳至主要內容
Goat_Yang
主页
编程开发
人工智能
随笔
软件工具
宝藏站点
关于我
简体中文
English
强化学习
Goat_Yang
2025/6/19
约 56 字
小于 1 分钟
强化学习部分按学习顺序整理,从概述、贝尔曼公式到策略梯度与演员-评论家方法逐步推进。
目录
强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结