强化学习(Reinforcement Learning, RL)研究的是智能体(agent)如何通过与环境(environment)的交互,在不断试错(trial-and-error)的过程中学习一个策略(policy),以最大化长期累积回报(expected cumulative return)。
强化学习是机器学习的第三范式,与监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)并列。
发展简史
强化学习的发展融合了多个研究方向:
强化学习(Reinforcement Learning, RL)研究的是智能体(agent)如何通过与环境(environment)的交互,在不断试错(trial-and-error)的过程中学习一个策略(policy),以最大化长期累积回报(expected cumulative return)。
强化学习是机器学习的第三范式,与监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)并列。
强化学习的发展融合了多个研究方向:
在智能优化算法的发展中,元启发式方法(Metaheuristics)因其通用性、可扩展性以及对复杂黑箱问题的强适应性而成为人工智能优化的重要组成部分。本文将系统整理元启发式算法在“是否基于模型(Model-Based vs. Model-Free)”这一维度下的分类及其特点,为从事智能优化研究或工程实践的读者提供清晰的知识结构。
传统的分类方式主要从灵感来源、解空间结构或种群规模等角度进行划分。然而,随着机器学习(ML)和优化技术的深度融合,基于模型的优化策略不断涌现,逐渐成为提升求解效率的关键技术路径。因此,“是否构建模型”成为智能优化领域一个越来越重要的视角。
| 优化问题类型 | 典型基准问题 / 模型 | 主要研究方向 |
|---|---|---|
| 连续优化(Continuous Optimization) | - Sphere 函数:f(x)=∑xi2 - Rosenbrock 函数:f(x)=(1−x1)2+100(x2−x12)2 - Rastrigin、Ackley、Griewank、Schwefel 函数 - CEC系列连续测试集(CEC2005/2013/2017) |
- 高维连续优化(10–100维) - 非凸、多峰函数优化 - 旋转/偏移不变性研究 - 混合函数与复杂景观分析 |
| 组合优化(Combinatorial Optimization) | - 旅行商问题(TSP) - 背包问题(Knapsack) - 作业车间调度(JSSP) - 车辆路径问题(VRP) - 图着色问题(Graph Coloring) |
- 离散编码设计与邻域搜索 - 混合群智能算法(如GA+ACO) - 大规模与动态调度优化 - 元启发式的多任务迁移优化 |
| 约束优化(Constrained Optimization) | - 压力容器设计 - 悬臂梁设计 - 焊接梁设计 - CEC2010/2020约束测试集 |
- 约束处理策略(惩罚函数、Deb规则、修复策略) - 可行性保持与动态罚项调节 - 混合差分进化(DE)与CMA-ES算法 |
| 多目标优化(Multi-objective Optimization, MOO) | - ZDT系列(ZDT1–ZDT6) - DTLZ系列(DTLZ1–DTLZ7) - WFG系列(WFG1–WFG9) - CEC多目标优化测试集 |
- 帕累托前沿近似与分布性分析 - NSGA-II、MOEA/D及其改进算法 - 高维多目标(>10目标)优化 - 决策偏好与交互优化 |
| 动态优化(Dynamic Optimization) | - 动态TSP(DTSP) - Moving Peak Benchmark (MPB) - 动态约束优化问题(DOPs) |
- 环境变化检测与预测 - 多种群与记忆机制 - 自适应学习与转移优化 - 在线优化与持续学习 |
| 鲁棒/随机优化(Robust & Stochastic Optimization) | - 不确定参数线性/非线性规划 - 随机TSP / 随机VRP - 鲁棒设计问题 |
- 鲁棒性建模与期望最优策略 - 随机场景采样与分布式优化 - 不确定性建模与贝叶斯优化 |
| 混合整数优化(Mixed Integer Optimization) | - 混合整数规划(MIP) - 混合Job Shop问题 - 能源调度优化 |
- 连续与离散变量协同优化 - 混合编码与约束修复机制 - 智能电网与微电网调度优化 |
| 工程优化(Engineering Optimization) | - 容器设计、梁结构优化 - 天线阵列优化 - PID参数整定 - 机械结构与控制系统设计 |
- 工程约束处理与可行性修复 - 多学科优化(MDO) - 基于仿真的黑盒优化 |
| 数据与机器学习优化(ML-related Optimization) | - 特征选择 / 特征子集优化 - 聚类优化(K-means改进) - 超参数优化 / 神经结构搜索(NAS) |
- 黑盒高维优化算法 - 基于梯度与元启发式的结合 - 自适应采样与代理模型优化 |
| 复杂混合优化(Hybrid & Multi-type Optimization) | - CEC混合测试函数 - 组合+连续混合设计问题 - 动态多目标约束问题 |
- 多层次优化(分解策略) - 多算法协同与迁移学习 - 算法框架统一化(如Auto-EA) |
智能优化算法(Intelligent Optimization Algorithms, IOAs)是一类基于自然启发与智能机制的全局优化方法。根据不同的分类依据,可以从算法运行特征、设计思想来源以及算法融合形式等角度进行系统划分。
智能优化算法在运行时维护的“解的数量”不同,可分为 单个体算法 与 群体算法 两大类。
这类算法在搜索过程中仅维护一个候选解,通过邻域搜索或扰动不断改进该解。
其特点是结构简单、计算量小,但容易陷入局部最优。
优化(Optimization) 指在给定约束条件下,寻找使目标函数达到最优(最小或最大)的决策变量值。
一般形式:
x∈Sminf(x)s.t.gi(x)≤0,i=1,…,mhj(x)=0,j=1,…,p
在传统的优化问题中,我们通常只有一个目标函数,比如:最小化成本 或 最大化收益。
但在实际工程或决策中,往往存在多个相互冲突的目标,比如:
"学习"本质上是一种从经验中改进未来决策的过程。
Mitchell(1997)在经典教材 Machine Learning 中下了一个非常简洁的定义:
若某个程序在任务 T 上,通过经验 E,使得其在性能度量 P
上的表现提高,则称该程序从经验 E 中学习。
换成人话就是:
程序从数据(经验)里提炼规律,以便下一次遇到类似情况时做得更好。
工具链(Toolchain) 指软件开发过程中用于辅助编码、构建、测试、部署等环节的一系列工具集合。在 Node.js 开发中,工具链可提升代码质量、开发效率和项目可维护性。
核心环节: