1. 基本概念
TOPSIS(Technique for Order Preference by Similarity to Ideal Solution) 是一种经典的多属性决策方法(MCDM)。
核心思想:
最优方案应当 最接近正理想解,且最远离负理想解
适用于:多方案、多指标的综合评价与排序问题。
2. 问题设定
- 方案数:
- 指标数:
- 决策矩阵:
TOPSIS(Technique for Order Preference by Similarity to Ideal Solution) 是一种经典的多属性决策方法(MCDM)。
核心思想:
最优方案应当 最接近正理想解,且最远离负理想解
适用于:多方案、多指标的综合评价与排序问题。
MOEA-D(Multi-Objective Evolutionary Algorithm based on Decomposition) 是 Zhang 和 Li 于 2007 年提出的一类多目标进化算法。
其核心思想是:将一个多目标优化问题分解为多个标量子问题,并通过协同进化同时求解这些子问题。
与基于 Pareto 排序的算法(如 NSGA-II、SPEA2)不同,MOEA-D 不显式进行非支配排序,而是通过 分解函数 + 邻域协作机制 来实现收敛性与多样性的平衡。
即对贝尔曼最优公式进行迭代求解
值迭代每轮会根据当前 vk 计算 qk(s,a),然后在每个状态选取使 qk 最大的动作:
本文开始介绍无需模型(model-free)的强化学习方法。没有模型就通过数据去找到最优策略。对期望值进行估计。
通过修改前文的策略迭代算法得到,即将其中的基于模型的策略评价模块替换为无需模型的策略评价模块。
相关信息
策略迭代算法的核心是计算动作值 qπk(s,a) 。
随机逼近(SA)是指一大类随机迭代算法,用于求解求根问题或优化问题。
与许多其他求根算法(例如基于梯度的方法)相比,
SA 的强大之处在于:它不需要知道目标函数的具体表达式,也不需要其导数。
▷ 如何计算均值 xˉ?
TD算法与MC算法最大的不同在于它是增量式的。
TD算法指一大类强化学习算法,也指一个特殊的进行状态值估计的算法
在本文中,我们将从
以前,策略是通过表格表示的:
Actor-critic 方法仍然属于策略梯度方法。
什么是“actor”和“critic”?
这里,“actor”指的是策略更新(policy update)。之所以称为 actor,是因为策略将被用于选择动作。
这里,“critic”指的是策略评估(policy evaluation)或价值估计(value estimation)。之所以称为 critic,是因为它通过评估策略来“批评”策略。
VNS(Variable Neighborhood Search,可变邻域搜索) 是一种元启发式算法,通过系统性地改变邻域结构来摆脱局部最优,从而找到更优解。
它依赖两个核心观察: