7. 数值稳定

1. 数值稳定性

神经网络的梯度
- 考虑一个有 $d$ 层的神经网络：
$h^{t} = f_{t} (h^{t - 1}) and y = ℓ \cdot f_{d} \cdot . . . \cdot f_{1} (x)$
- 计算损失 $ℓ$ 关于参数 $W_{t}$ 的梯度：
$\frac{\partial ℓ}{\partial W_{t}} = \frac{\partial ℓ}{\partial h^{d}} \cdot \frac{\partial h^{d}}{\partial h^{d - 1}} \cdot . . . \cdot \frac{\partial h^{t + 1}}{\partial h^{t}} \cdot \frac{\partial h^{t}}{\partial W_{t}}$
- 链式法则：反向传播时，多个层的梯度相乘，导致数值可能急剧增大或减小。
梯度爆炸与梯度消失
- 梯度爆炸（Gradient Explosion）：参数更新过大，导致模型权重数值不断增大，最终发生溢出。
  - 示例： ${1.5}^{100} \approx 4 \times 10^{17}$ 。
- 梯度消失（Gradient Vanishing）：随着反向传播的进行，梯度变得非常小，导致无法有效更新模型权重。
  - 示例： ${0.8}^{100} \approx 2 \times 10^{- 10}$ 。
- 常见诱因：层数过深、激活函数/初始化不当、学习率失控。
激活函数的影响
- ReLU ：一般能缓解梯度消失，但依然可能导致爆炸。
  $σ (x) = max (0, x) and σ^{'} (x) = {\begin{cases} 1, & if x > 0 \\ 0, & otherwise \end{cases}$
  - 如果 $d - t$ 较大，梯度会变得非常大，造成数值爆炸。
- Sigmoid：在区间两端梯度非常小，极易导致梯度消失。
  $σ (x) = \frac{1}{1 + e^{- x}} and σ^{'} (x) = σ (x) (1 - σ (x))$
计算中常见的数值不稳定
- 数值溢出：参数值过大或过小，超出数值类型（如16位浮点数）的表示范围。
- 学习率敏感：学习率过大→爆炸，过小→不收敛
- 深层网络更易中招：链式乘积n次，深度越大，越不稳定。
例子：在MLP中，前向传播和反向传播都受到激活函数的影响。使用ReLU：爆炸风险更大。使用Sigmoid：消失风险更大。

使用ReLU：

\begin{aligned} f_{t} (h^{t - 1}) & = σ (W^{t} h^{t - 1}), \\ \frac{\partial h^{t}}{\partial h^{t - 1}} & = diag (σ^{'} (W^{t} h^{t - 1})) (W^{t})^{T} \end{aligned}

使用Sigmoid时：

\prod_{i = t}^{d - 1} \frac{\partial h^{i + 1}}{\partial h^{i}} = \prod_{i = t}^{d - 1} diag (σ^{'} (W^{i} h^{i - 1})) (W^{i})^{T}

2. 让训练更加稳定

目标：让梯度值在合理的范围内（例如 $[1 \times 10^{- 6}, 1 \times 10^{3}]$ ）。
1. 将乘法变加法：例如：ResNet、LSTM
2. 归一化：梯度归一化、梯度裁剪
3. 合理的，权重初始化、激活函数

MLP中的例子

目标：让每一层的输出和反向梯度的方差都是常数，避免数值爆炸或消失。
- 每层输出和梯度都看作随机变量，要求均值为0、方差为常数（独立同分布）。

\begin{array}{cc} 正向传播 & 反向传播 \\ E [h_{i}^{t}] = 0 & E [\frac{\partial ℓ}{\partial h_{i}^{t}}] = 0 \\ Var [h_{i}^{t}] = a & Var [\frac{\partial ℓ}{\partial h_{i}^{t}}] = b \forall i, t \end{array}

假设： $w_{i, j}^{t}$ 是独立同分布（i.i.d.），且满足：
- $E [w_{i, j}^{t}] = 0, Var [w_{i, j}^{t}] = γ_{t}$
- $h_{i}^{t + 1}$ 独立于 $w_{i, j}^{t}$
没有激活函数： $h^{t} = W^{t} h^{t - 1}$ ，其中 $W^{t} \in R^{n_{t} \times n_{t - 1}}$ 。

正向方差：

\begin{aligned} E [h_{i}^{t}] & = E [\sum_{j} w_{i, j}^{t} \cdot h_{j}^{t - 1}] = \sum_{j} E [w_{i, j}^{t}] \cdot E [h_{j}^{t - 1}] = 0 \\ Var [h_{i}^{t}] & = E [(h_{i}^{t})^{2}] - \underset{= 0}{\underset{⏟}{(E [h_{i}^{t}])^{2}}} = E [{(\sum_{j} w_{i, j}^{t} \cdot h_{j}^{t - 1})}^{2}] \\ = \sum_{j} E [(w_{i, j}^{t})^{2}] \cdot E [(h_{j}^{t - 1})^{2}] + \sum_{j \neq k} \underset{= 0}{\underset{⏟}{E [w_{i, j}^{t} \cdot w_{i, k}^{t}]}} \cdot E [h_{j}^{t - 1} \cdot h_{k}^{t - 1}] \\ = \sum_{j} Var [w_{i, j}^{t}] \cdot Var [h_{j}^{t - 1}] \\ = n_{t - 1} \cdot γ_{t} \cdot Var [h_{j}^{t - 1}] \end{aligned}

反向传播梯度：

\begin{aligned} \frac{\partial ℓ}{\partial h_{i}^{t - 1}} & = \frac{\partial ℓ}{\partial h^{t}} W^{t} \\ \Rightarrow E [\frac{\partial ℓ}{\partial h_{i}^{t - 1}}] & = 0 \\ Var [\frac{\partial ℓ}{\partial h_{i}^{t - 1}}] & = n_{t} \cdot γ_{t} \cdot Var [\frac{\partial ℓ}{\partial h_{j}^{t}}] \end{aligned}

$n_{t - 1} γ_{t} = 1$
为保证所有层的方差一致，理想要求 $n_{t - 1} γ_{t} = 1$ 且 $n_{t} γ_{t} = 1$ ，但实际很难同时满足。

常用：Xavier初始化（针对深度网络）
- Xavier初始化可以避免梯度爆炸或消失。
- Xavier初始化：适用于深度神经网络，通过平衡层输入输出的方差，使梯度在训练过程中更加稳定。
  - $γ_{t} (n_{t - 1} + n_{t}) / 2 = 1$ ; $γ_{t} = \frac{2}{n t - 1 + n_{t}}$
  - 正态分布： $N (0, \sqrt{2 / (n_{t - 1} + n_{t})})$
  - 均匀分布： $U (- \sqrt{6 / (n_{t - 1} + n_{t})}, \sqrt{6 / (n_{t - 1} + n_{t})})$
  - note： $U (- a, a)$ 的方差为 $a^{2} / 3$ 。

3. 结论

梯度爆炸和梯度消失是深度神经网络常见的数值稳定性难题，尤其在网络层数增加后更突出。
主要对策有三条：
1. 权重初始化要科学：优先选用Xavier或He初始化，降低数值极端波动风险。
2. 归一化机制要用好：如Batch Normalization，让每一层的输出和梯度方差都在合理范围，防止异常扩散或消失。
3. 激活函数要选对：避免Sigmoid等极易导致梯度消失的激活函数，推荐ReLU及其变体。
训练过程中还需关注学习率调整，权重初始化和归一化相结合才能最大程度保证数值稳定。