跳至主要內容
Goat_Yang
首页
人工智能 · 算法
通识基础
学习类算法导论
参数设置分析方法
机器学习
深度学习
强化学习
非学习类算法
智能优化算法
具体问题 / 案例
AI应用实践
AI 应用话题
Agent
提示词工程
Skills&MCP&插件
随笔
数学建模专题
数学随记
计算机随记
程序设计语言随笔
前端随笔
音乐
软件工具
Docker
Git
开源项目推荐
LaTeX
Linux
SSH
VSCode
Zotero
网站导航
关于我
简体中文
English
搜索
Ctrl
K
强化学习
Goat_Yang
2025/6/19
约 53 字
小于 1 分钟
这里会持续更新从价值函数、动态规划到策略方法和现代框架的强化学习方向文章。
目录
强化学习概述
贝尔曼公式
贝尔曼最优公式
值迭代与策略迭代
蒙特卡罗方法
随机近似算法
时序差分方法
值函数方法
策略梯度算法
演员-评论家方法
总结