Gate Recurrent Unit(GRU)是一种门控循环神经网络,由 Cho 等人在提出 Seq2Seq 模型时引入。
设计目标是:
在缓解传统 RNN 梯度消失问题的同时,保持比 LSTM 更简单的结构与更高的训练效率。
核心思想:
通过门控机制直接在隐藏状态上进行更新,不再区分“记忆单元”和“隐状态”。
GRU 相比 RNN / LSTM 的特点
相比普通 RNN
- 引入门控结构,缓解梯度消失
- 使用加权加法路径,稳定梯度传播
2026/1/30大约 3 分钟
Gate Recurrent Unit(GRU)是一种门控循环神经网络,由 Cho 等人在提出 Seq2Seq 模型时引入。
设计目标是:
在缓解传统 RNN 梯度消失问题的同时,保持比 LSTM 更简单的结构与更高的训练效率。
核心思想:
通过门控机制直接在隐藏状态上进行更新,不再区分“记忆单元”和“隐状态”。
Long Short-Term Memory(LSTM)是一种门控循环神经网络(Gated RNN),由 Hochreiter & Schmidhuber 提出,用于解决普通 RNN 在处理长序列依赖时的梯度消失 / 梯度爆炸问题。
核心思想:
通过显式的记忆单元(cell state)和门控机制,控制信息的写入、保留与输出。
普通 RNN:
解决问题:
y=x+F(x)