2. Softmax 回归

2. Softmax 回归 (LLN for Classification)

Softmax 回归：是一种用于多类别分类的线性模型。输出层是每个类别的得分（logits），通过 softmax 函数变成概率分布。
回归 vs. 分类
- 回归：预测连续值，输出是实数域 $R$ 。
- 分类：预测离散标签，输出为各类别的概率或置信度。
多类别分类建模流程：
- 对类别进行一位有效编码（one-hot encoding）： $y = [y_{1}, y_{2}, \dots, y_{n}]^{T}$ 其中： $y_{i} = {\begin{cases} 1 & if i = y \\ 0 & otherwise \end{cases}$
- 输出原始分数（logits）： $o = [o_{1}, o_{2}, . . ., o_{n}]$
- 预测类别： $\hat{y} = \arg max_{i} o_{i}$
- 使用Softmax函数将logits转为概率分布： ${\hat{y}}_{i} = \frac{\exp (o_{i})}{\sum_{k} \exp (o_{k})}$
类别区分的本质：
- 分类模型需保证正确类别的得分高于其他类别，可以用如 $o_{y} - o_{i} \geq Δ (y, i)$ 这样的条件提升鲁棒性（了解即可，主流做法还是用Softmax+交叉熵）。

目标：
- 在分类任务中，模型需要能够明确区分正确的类别和其他类别，确保预测结果具有较高的置信度。
- 这种区分能力可以通过增加“真正的类”与其他类之间的得分差距来实现。
无检验比例 ：
- $o_{y} - o_{i} \geq Δ (y, i)$ 表示在输出层上，正确类 $y$ 的得分 $o_{y}$ 应该比其他类 $i$ 的得分 $o_{i}$ 至少高出一个预设的阈值 $Δ (y, i)$ 。这有助于提高分类的鲁棒性和准确性。
有检验比例 ：
- 使用 Softmax 函数 将模型的原始输出 $o$ 转换为概率分布 $y$ ，确保所有类别的概率非负且总和为 1。

Softmax函数 保证输出为概率分布（非负，总和为1）。
交叉熵损失（Cross-Entropy Loss） 常用于衡量真实分布 $p$ 与预测分布 $q$ 的差异：
$H (p, q) = - \sum_{i} p_{i} \log q_{i}$
- 对于独热标签 $y$ ，损失可写为：
$l (y, \hat{y}) = - \sum_{i} y_{i} \log {\hat{y}}_{i} = - \log {\hat{y}}_{y}$
交叉熵梯度（对logits的导数）：
$\frac{\partial l}{\partial o_{i}} = {\hat{y}}_{i} - y_{i}$
one-hot编码说明：
- 独热编码向量长度等于类别数，只有一个元素为1，其余为0。
- 例：三分类时， $y$ 可能为 $(1, 0, 0), (0, 1, 0), (0, 0, 1)$
仿射函数（Affine function）：
$f (x) = A x + b$
- $A$ ：权重矩阵（线性变换）
- $b$ ：偏置（平移项）

Huber 损失（Robust loss）： $L_{Huber} (y, y^{'}) = {\begin{cases} \frac{1}{2} (y - y^{'})^{2} & if | y - y^{'} | \leq δ \\ δ | y - y^{'} | - \frac{1}{2} δ^{2} & otherwise \end{cases}$