标签: 算法

TOPSIS 逼近理想解排序法

1. 基本概念

TOPSIS（Technique for Order Preference by Similarity to Ideal Solution） 是一种经典的多属性决策方法（MCDM）。

核心思想：

最优方案应当 最接近正理想解，且最远离负理想解

适用于：多方案、多指标的综合评价与排序问题。

2. 问题设定

方案数： $m$
指标数： $n$
决策矩阵：

Goat_Yang2026/1/30大约 2 分钟

基于分解的多目标进化算法（MOEA/D）

MOEA-D（Multi-Objective Evolutionary Algorithm based on Decomposition） 是 Zhang 和 Li 于 2007 年提出的一类多目标进化算法。
其核心思想是：将一个多目标优化问题分解为多个标量子问题，并通过协同进化同时求解这些子问题。

与基于 Pareto 排序的算法（如 NSGA-II、SPEA2）不同，MOEA-D 不显式进行非支配排序，而是通过分解函数 + 邻域协作机制来实现收敛性与多样性的平衡。

算法流程图

一、算法原理与核心机制

Goat_Yang2026/1/26大约 6 分钟

值迭代与策略迭代

值迭代

即对贝尔曼最优公式进行迭代求解

算法步骤

Step 1: 策略更新 policy update

值迭代每轮会根据当前 $v_k$ 计算 $q_k(s,a)$ ，然后在每个状态选取使 $q_k$ 最大的动作：

Goat_Yang2026/1/19大约 4 分钟

蒙特卡罗方法

本文开始介绍无需模型（model-free）的强化学习方法。没有模型就通过数据去找到最优策略。对期望值进行估计。

MC Basic：最简单的基于蒙特卡洛的算法

通过修改前文的策略迭代算法得到，即将其中的基于模型的策略评价模块替换为无需模型的策略评价模块。

将策略迭代算法转换为无需模型

算法示例：期望值估计

▷ 如何计算均值 $\bar{x}$ ？

Goat_Yang2026/1/19大约 11 分钟

时序差分方法

TD算法与MC算法最大的不同在于它是增量式的。

TD算法指一大类强化学习算法，也指一个特殊的进行状态值估计的算法

状态值估计：最基础的时序差分方法

问题陈述

给定策略 $\pi$ ，目标是估计在策略 $\pi$ 下的状态价值 $\{v_{\pi}(s)\}_{s \in \mathcal{S}}$ 。
经验样本为： ${\color{blue}(s_0, r_1, s_1, \ldots, s_t, r_{t+1}, s_{t+1}, \ldots)}$ 或 ${\color{blue}\{(s_t, r_{t+1}, s_{t+1})\}_t}$ 它们是由策略 $\pi$ 生成的。

Goat_Yang2026/1/19大约 17 分钟

值函数方法

价值表示：从表格到函数

由表格转为函数，由离散转为连续。用函数拟合连续的状态价值

\hat{v}(s) = as + b

Goat_Yang2026/1/19大约 16 分钟

策略梯度算法

在本文中，我们将从

基于价值的方法转向基于策略的方法
基于价值函数的方法转向策略函数方法（或称为策略梯度方法）

策略表示：从表格到函数

以前，策略是通过表格表示的：

所有状态的动作概率存储在表格 $\pi(a|s)$ 中。表格中的每个条目由状态和动作索引。

Goat_Yang2026/1/19大约 11 分钟

演员-评论家方法

Actor-critic 方法仍然属于策略梯度方法。

它们强调将策略梯度方法与价值函数方法相结合的结构。

什么是“actor”和“critic”？

这里，“actor”指的是策略更新（policy update）。之所以称为 actor，是因为策略将被用于选择动作。
这里，“critic”指的是策略评估（policy evaluation）或价值估计（value estimation）。之所以称为 critic，是因为它通过评估策略来“批评”策略。

Goat_Yang2026/1/19大约 12 分钟

可变邻域搜索 (VNS)

1. 概念简介

VNS（Variable Neighborhood Search，可变邻域搜索） 是一种元启发式算法，通过系统性地改变邻域结构来摆脱局部最优，从而找到更优解。

它依赖两个核心观察：

局部最优依赖邻域定义：不同邻域下的局部最优不同。
全局最优往往在某个邻域中是局部最优：系统探索多个邻域有助于发现全局更优解。

2. 算法思想与框架

2.1 核心步骤

Goat_Yang2025/12/3大约 4 分钟