LLaMa（书）

LLaMA采用的Transformer结构与GPT-2类似，主要改进有：

1. RMSNorm归一化函数

RMSNorm归一化函数（Root Mean Square Layer Normalization）常用于如LLaMA、GPT-2的前置归一化（pre-norm）结构。
与LayerNorm区别：RMSNorm不做均值减法，仅按方差归一化。

RMSNorm计算公式

对于输入向量 $a = (a_{1}, a_{2}, . . ., a_{n})$ ，

1. 计算均方根（Root Mean Square, RMS）：
$RMS (a) = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} a_{i}^{2}}$
2. 归一化每个分量：
${\bar{a}}_{i} = \frac{a_{i}}{RMS (a)}$
3. 可学习仿射变换：
${\bar{a}}_{i} = \frac{a_{i}}{RMS (a)} g_{i} + b_{i}$
其中 $g_{i}$ 为可学习的缩放因子， $b_{i}$ 为可学习的偏置（常用 $g$ 为向量， $b$ 可选）。

SwiGLU 激活函数的提出者及应用：Shazeer 提出，在 PaLM 等模型中广泛应用，取得不错效果。
与 ReLU 的对比：相比 ReLU，SwiGLU 在大部分评测中提升明显。
在 LLaMA 中的使用方式：全连接层采用 SwiGLU 激活函数，具体公式如下：
$\begin{aligned} {FFN}_{SwiGLU} (x, W, V, W_{2}) & = SwiGLU (x, W, V) W_{2} \\ SwiGLU (x, W, V) & = {Swish}_{β} (x W) \otimes x V \\ {Swish}_{β} (x) & = x \cdot σ (β x) \end{aligned}$
- 其中 $σ (x)$ 为 Sigmoid 函数
Swish 激活函数 $β$ 参数影响
- 当 $β \to 0$ 时，Swish 接近线性函数 $y = x$
- 当 $β \to \infty$ 时，Swish 接近 ReLU
- 当 $β = 1$ 时，Swish 光滑且非单调
工程实现：HuggingFace 的 transformers 库用 SiLU 代替 Swish

曲线对比了 $β = 0.1$ 、 $β = 1.0$ 、 $β = 10.0$ 三种情况。
$β$ 越小（如 $β = 0.1$ ，黄色），曲线越接近一条斜直线，即接近 $y = x$ ，表现为线性函数。
$β = 1.0$ （红色）时，曲线介于线性和ReLU之间，光滑但非单调。
$β$ 很大（如 $β = 10.0$ ，蓝色），曲线在 $x > 0$ 时和 $y = x$ 很接近， $x < 0$ 时趋于零，形状接近 ReLU 激活函数。

基本思想：用旋转式位置嵌入（RoPE）代替绝对位置编码。RoPE 利用复数的几何意义，实现相对位置编码。
基本形式
通过函数 $f$ 对查询 $q$ 、键 $k$ 添加绝对位置信息：
${\tilde{q}}_{m} = f (q, m), {\tilde{k}}_{n} = f (k, n)$
复数表示的 RoPE：这个变换几何上等价于对向量进行旋转。
$f (q, m) = R_{f} (q, m) e^{i θ_{f (q, m)}} = ∥ q ∥ e^{i (θ (q) + m θ)} = q e^{i m θ}$
二维矩阵形式
$f (q, m) = (\begin{matrix} \cos (m θ) & - \sin (m θ) \\ \sin (m θ) & \cos (m θ) \end{matrix}) (\begin{matrix} q_{0} \\ q_{1} \end{matrix})$
高维拼接形式：任意偶数维的 RoPE 可表示为多个二维旋转块的拼接：
$f (q, m) = \underset{R_{d}}{\underset{⏟}{(\begin{matrix} \cos (m θ_{0}) & - \sin (m θ_{0}) \\ \sin (m θ_{0}) & \cos (m θ_{0}) \\ \cos (m θ_{1}) & - \sin (m θ_{1}) \\ \sin (m θ_{1}) & \cos (m θ_{1}) \\ ⋱ \end{matrix})}} (\begin{matrix} q_{0} \\ q_{1} \\ q_{2} \\ q_{3} \\ ⋮ \\ q_{d - 2} \\ q_{d - 1} \end{matrix})$
高效计算：由于 $R_{d}$ 是多个 2×2 块的对角拼接，具备稀疏性，可用按位乘（ $\otimes$ ）操作进一步提升计算速度。