Neurowave

2. Softmax 回归

2. Softmax 回归 (LLN for Classification) 1. Softmax 回归与分类问题 Softmax 回归：是一种用于多类别分类的线性模型。输出层是每个类别的得分（logits），通过 softmax 函数变成概率分布。回归 vs. 分类回归：预测连续值，输出是实数域 R。分类：预测离散标签，输出为各类别的概率或置信度。多类别

2025-04-22

LNNs

#LNN #DeepLearning #SupervisedLearning #Softmax #Classification

1. Linear Regression

1. Linear Regression 线性回归（LNN for Regression） 1. 线性回归 (线性或非线性) 回归 (Regression)：能为一个或多个自变量与因变量之间关系建模的方法，预测输出是连续值。线性回归是一种用于预测连续变量的基本监督学习方法。模型形式： y^=w⊤x+b w：权重（weights），b：偏置/截距（bias/intercept）

2025-04-22

LNNs

#LNN #LinearRegression #Regression #DeepLearning #SupervisedLearning

1. Transformer前世今生

1. 预训练与迁移学习 1. 预训练是什么？预训练：指在大数据集上先训练好一个模型（如模型A），然后将其参数迁移到一个相关的小数据集的新任务（如任务B）。常见做法是在新任务上：参数冻结（Freeze）：把预训练模型A的前几层参数保持不变，只训练后面的高层参数。（适合新任务和原任务差别不大的情况。）微调（Fine-tuning）：让预训练模型A的全部或部分参数都参与新任务的训练。（

2025-04-20

Transformer

#DeepLearning #NLP #LLM #Transformer #Embedding #Attention #Word2Vec #pre-trained #NNLM #one-hot #ELMo

4.多输入通道与多输出通道的卷积

4. 多输入通道与多输出通道的卷积 1. 多输入通道彩色图像一般有 RGB 三个输入通道，直接转成灰度会丢失信息。每个输入通道都有一个对应的卷积核，所有通道卷积后的结果相加，得到单通道的输出。数学形式：输入 X：ci×nh×nw 卷积核 W：ci×kh×kw 输出 Y：mh×mw 公式：Y=∑i=1ciXi,:,:⋆Wi,:,: 2. 多输出通道卷积层的输出通道数是一

2025-04-18

CNNs

#DeepLearning #AI #CNN #Channel

3.填充和步幅（padding & stride）

3. 填充和步幅（Padding & Stride） 1.填充（Padding）给定 32×32 的输入图像，应用 5×5 卷积核：第1层输出大小为 28×28 第7层输出大小为 4×4 更大的卷积核会让输出尺寸更快减小形状从 nh×nw 减少到 (nh−kh+1)×(nw−kw+1) 其中 nh,nw 是输入的高和宽，kh,kw 是卷积核的高和宽。在输入周围添加格

2025-04-18

CNNs

#DeepLearning #AI #CNN #Padding #Stride

2.图像卷积

2. 图像卷积 1. 卷积运算 → 互相关运算 (cross-correlation) 二维互相关：定义：将输入和核矩阵进行交叉相乘，加上偏移后得到输出。示例： 2. 输入输出尺寸输入 X：大小为 nh×nw（超参数）。核 (kernel) W：大小为 kh×kw。偏置 b∈R。输出 Y：大小为 (nh−kh+1)×(nw−kw+1)。原因：核滑动时，边缘位置无法完

2025-04-18

CNNs

#DeepLearning #AI #CNN #Convolution #Image

6. Multi-Head Self-Attention 多头自注意力

6. Multi-Head Self-Attention 多头自注意力 1. 核心思想多头注意力（Multi-Head Attention）是在自注意力（self-attention）基础上的扩展，通过并行设置多个"注意力头"（head），让模型能从不同子空间提取信息，提升表达能力和鲁棒性。 2. 基本结构基本思路：将 query、key、value 线性投影到

2025-04-19

Attention

#DeepLearning #NLP #Transformer #AI #MultiHeadAttention

5. Positional Encoding 位置编码

5. Positional Encoding 位置编码 1. 动机为什么要加位置编码？ Self-Attention 本身不感知输入顺序，把序列当成无序集合（Set），缺乏序列（Sequence）信息。必须人为注入"位置信息"，让模型知道"顺序" （Transformer需要）。和其他架构对比： CNN 通过卷积核隐式捕捉局部顺序 RN

2025-04-19

Attention

#DeepLearning #NLP #Transformer #AI #PositionEncoding

4. Self-Attention 自注意力

4. Self-Attention 自注意力 1. 核心思想自注意力（Self-Attention）是一种用于序列建模的机制，可以让序列中的每个元素都与其他所有元素建立直接联系，实现对全局依赖的建模。在 NLP、CV 及各种序列任务中，自注意力显著提升了模型对远距离依赖的捕捉能力、并行计算效率和表达力。 2. 基本定义与结构输入：一个长度为 n 的序列 x1,...,xn，每

2025-04-19

Attention

#DeepLearning #NLP #AI #Mechanism #SelfAttention

3. Bahdanau 注意力（Seq2Seq + Attention）

3. Bahdanau 注意力（Seq2Seq + Attention） 1. 动机经典 Seq2Seq（编码器-解码器）模型使用两个 RNN： Encoder：把整个输入序列"压缩"为一个固定长度的上下文向量（context）。 Decoder：每一步都依赖这同一个 context 生成下一个输出。局限性：输入句子很长时，固定长度的 context 向量

2025-04-19

Attention

#DeepLearning #NLP #Attention #Bahdanau #Seq2Seq