2. Transformer(书)

1. Transformer 结构

编码器（Encoder） 与 解码器（Decoder）
- 左右结构，分别对应编码和解码。
- 每边包含多个Transformer Block（N层堆叠）。
- 每个 Block 输入为向量序列 ${x_{i}}_{i = 1}^{n}$ ，输出为 ${y_{j}}_{j = 1}^{m}$ 。
Token 表示：输入序列（词/子词） $x_{i}$ ，通过Transformer块，逐步编码为上下文相关的表示 $a_{i}$ ，再由 Decoder 解码为输出 $y_{j}$ 。
主要任务：实现从输入 $x_{i}$ 到输出 $y_{j}$ 的 语义抽象与转换。

多头注意力层（Multi-Head Attention）
- 作用：并行运行多个独立注意力机制，从不同维度抽取输入序列信息。
- 优势：可直接建模任何两单词之间的依赖关系，突破传统循环结构的限制，尤其擅长长距离依赖建模。
位置感知前馈网络层（Position-wise Feed-Forward Network）
- 作用：对输入文本序列的每个Token进行独立复杂变换（全连接层），加上位置编码，保留位置信息。
残差连接与层归一化（Residual Connection & LayerNorm）
- 残差连接（Add部分）：各模块之间有跳跃连接（类似ResNet思想），使信息更好地流动、缓解深层网络训练难题。
- 层归一化（Norm部分）：对每个子层的输出进行归一化，保证训练稳定性。

为什么需要位置编码？
- Transformer结构不再使用 基于循环 的方式建模文本输入，模型本身不具备词语之间的顺序信息（即不能感知相对/绝对位置）。
- 输入嵌入层（Input Embedding）只负责将每个单词（token）转换为向量表示，但这些向量没带有位置信息。
- 在编码器端，必须补充单词在序列中的"位置"特征，才能让模型捕捉顺序。
什么是位置编码？
- 位置编码（Positional Encoding）：为嵌入向量加入位置信息。序列中每个单词所在的位置会被转换成一个向量（与词向量相加），以此增强模型对顺序的理解。
- 作用：让模型获得序列中各单词的顺序和相对距离信息，帮助捕捉序列结构。
位置编码的计算方法（正弦余弦编码）
- Transformer用不同频率的正弦和余弦函数对位置编码：
  - 对于位置 $p o s$ 和维度 $i$ ，总维度 $d$
  - 同一个位置，偶数维用sin，奇数维用cos，频率指数增长，覆盖不同时间/距离尺度。

\begin{aligned} PE (p o s, 2 i) & = \sin (\frac{p o s}{10000^{2 i / d}}) \\ PE (p o s, 2 i + 1) & = \cos (\frac{p o s}{10000^{2 i / d}}) \end{aligned}

位置编码的优点
- 正弦余弦范围在 $[- 1, 1]$ ，和嵌入向量相加不会极端扰动原有信息。
- 平移不变性：由于三角函数性质，位置编码具有线性可组合性（第 $p o s + k$ 的位置编码等于第 $p o s$ 位置和第 $k$ 个偏移量的线性组合），模型可直接获知词间距离。
- 自动学习利用：训练时，模型会自己学会如何用这部分信息，无需额外监督。

自注意力机制是Transformer的核心操作，用于在序列中建模任意两个单词间的依赖关系。
输入为每个单词的嵌入向量与其位置编码相加后的结果，记为 ${x_{i} \in R^{d}}_{i = 1}^{L}$ 。
为了实现对上下文的依赖建模，引入三个元素：查询（Query） $q_{i}$ 、键（Key） $k_{i}$ 和 值（Value） $v_{i}$ 。
- 这三者都是通过线性变换由输入 $x_{i}$ 得到：
  - $Q = X W^{Q}$ ， $K = X W^{K}$ ， $V = X W^{V}$
  - $W^{Q}, W^{K}, W^{V}$ 为可学习权重， $Q, K, V$ 为所有输入对应的矩阵。

每个输入 $x_{i}$ 要关注序列中其他所有位置，关注程度通过 $q_{i}$ 和 $k_{j}$ 的点积打分，所有打分用softmax归一化，得到注意力权重。
防止梯度爆炸/收敛效率低，打分前需除以 $\sqrt{d}$ （ $d$ 为维度）。
最终输出是加权求和后的所有 $v_{j}$ ，公式如下：
$Z = Attention (Q, K, V) = Softmax (\frac{Q K^{⊤}}{\sqrt{d}}) V$
$Q, K, V$ 分别为所有词的query、key、value矩阵， $Z$ 为输出矩阵。

单头注意力可能只关注上下文的某一方面，多头注意力让模型能从不同子空间关注信息（如语法、语义、实体等）。
$Z_{j} = Attention (Q_{j}, K_{j}, V_{j}) = Softmax (\frac{Q_{i} K_{i}^{⊤}}{\sqrt{d}}) V_{i}$
方法是使用多组独立的权重 $W_{j}^{Q}, W_{j}^{K}, W_{j}^{V}$ ，每组计算一组 $Z_{j}$ ，再拼接后用 $W^{O}$ 线性变换：
$Z = Concat (Z_{1}, . . ., Z_{N}) W^{O}$
最终输出为所有头拼接后再线性变换的结果。
自注意力机制使模型能自动识别输入各部分的重要性，不受距离影响，有效捕捉长距离依赖和复杂关系。

作用与结构
- 前馈层接收自注意力子层的输出作为输入，对每个位置的表示分别进行更复杂的非线性变换。
- 具体实现：一个带有ReLU激活函数的两层全连接网络，逐位置独立应用。
数学表达式
- 其中 $W_{1}, b_{1}, W_{2}, b_{2}$ 为前馈层参数

FFN (x) = ReLU (x W_{1} + b_{1}) W_{2} + b_{2}

Transformer结构很深，包含多个堆叠的复杂非线性映射，训练难度大。
为提升训练稳定性，引入残差连接：每一层的输出等于子层的输出加上输入本身（即跳跃连接）：
$x^{l + 1} = f (x^{l}) + x^{l}$
- $x^{l}$ 表示第 $l$ 层输入， $f (\cdot)$ 表示该层的变换函数。
残差连接可有效缓解深层网络中的梯度消失问题。

进一步保证各层输入/输出稳定，引入层归一化，规范每一层的分布：
$LN (x) = α \cdot \frac{x - μ}{σ} + b$
- $μ$ 和 $σ$ 分别是均值和方差（对当前层数据做归一化）， $α$ 和 $b$ 为可学习参数。
这样处理后，数据被平移到均值0、方差1的标准分布 $N (0, 1)$ 。
作用：有效缓解优化过程中的不稳定、收敛慢等问题。

Decoder端比 Encoder端更复杂，每个Transformer块的第一个注意力子层为掩码多头自注意力。为Decoder每个Transformer块的第一层自注意力子层额外加掩码，仅用已生成（t 时刻前）目标序列的内容参与计算。
机制：只允许Decoder当前单词关注其前面所有（已生成）单词，掩盖未来信息，避免训练阶段"偷看"后文，保证生成时只能用已知信息。
原因：生成目标序列是自回归的，解码阶段每一步只能访问当前和之前已生成的token，掩码阻止模型看到后续内容，保证训练/推断一致性。