Neurowave
  • 首页
  • 归档
  • 分类
  • 标签
  • 说说
  • 统计
  • 关于

2. Softmax 回归

2. Softmax 回归 (LLN for Classification) 1. Softmax 回归与分类问题 Softmax 回归:是一种用于多类别分类的线性模型。输出层是每个类别的得分(logits),通过 softmax 函数变成概率分布。 回归 vs. 分类 回归:预测连续值,输出是实数域 R。 分类:预测离散标签,输出为各类别的概率或置信度。 多类别
2025-04-22
LNNs
#LNN #DeepLearning #SupervisedLearning #Softmax #Classification

1. Linear Regression

1. Linear Regression 线性回归 (LNN for Regression) 1. 线性回归 (线性或非线性) 回归 (Regression):能为一个或多个自变量与因变量之间关系建模的方法,预测输出是连续值。 线性回归是一种用于预测连续变量的基本监督学习方法。 模型形式: y^=w⊤x+b w:权重(weights),b:偏置/截距(bias/intercept)
2025-04-22
LNNs
#LNN #LinearRegression #Regression #DeepLearning #SupervisedLearning

1. Transformer前世今生

1. 预训练与迁移学习 1. 预训练是什么? 预训练:指在大数据集上先训练好一个模型(如模型A),然后将其参数迁移到一个相关的小数据集的新任务(如任务B)。 常见做法是在新任务上: 参数冻结(Freeze): 把预训练模型A的前几层参数保持不变,只训练后面的高层参数。(适合新任务和原任务差别不大的情况。) 微调(Fine-tuning): 让预训练模型A的全部或部分参数都参与新任务的训练。(
2025-04-20
Transformer
#DeepLearning #NLP #LLM #Transformer #Embedding #Attention #Word2Vec #pre-trained #NNLM #one-hot #ELMo

4.多输入通道与多输出通道的卷积

4. 多输入通道与多输出通道的卷积 1. 多输入通道 彩色图像一般有 RGB 三个输入通道,直接转成灰度会丢失信息。 每个输入通道都有一个对应的卷积核,所有通道卷积后的结果相加,得到单通道的输出。 数学形式: 输入 X:ci×nh×nw 卷积核 W:ci×kh×kw 输出 Y:mh×mw 公式:Y=∑i=1ciXi,:,:⋆Wi,:,: 2. 多输出通道 卷积层的输出通道数是一
2025-04-18
CNNs
#DeepLearning #AI #CNN #Channel

3.填充和步幅(padding & stride)

3. 填充和步幅(Padding & Stride) 1.填充(Padding) 给定 32×32 的输入图像,应用 5×5 卷积核: 第1层输出大小为 28×28 第7层输出大小为 4×4 更大的卷积核会让输出尺寸更快减小 形状从 nh×nw 减少到 (nh−kh+1)×(nw−kw+1) 其中 nh,nw 是输入的高和宽,kh,kw 是卷积核的高和宽。 在输入周围添加格
2025-04-18
CNNs
#DeepLearning #AI #CNN #Padding #Stride

2.图像卷积

2. 图像卷积 1. 卷积运算 → 互相关运算 (cross-correlation) 二维互相关: 定义:将输入和核矩阵进行交叉相乘,加上偏移后得到输出。 示例: 2. 输入输出尺寸 输入 X:大小为 nh×nw(超参数)。 核 (kernel) W:大小为 kh×kw。 偏置 b∈R。 输出 Y:大小为 (nh−kh+1)×(nw−kw+1)。 原因:核滑动时,边缘位置无法完
2025-04-18
CNNs
#DeepLearning #AI #CNN #Convolution #Image

6. Multi-Head Self-Attention 多头自注意力

6. Multi-Head Self-Attention 多头自注意力 1. 核心思想 多头注意力(Multi-Head Attention) 是在自注意力(self-attention)基础上的扩展,通过并行设置多个"注意力头"(head),让模型能从不同子空间提取信息,提升表达能力和鲁棒性。 2. 基本结构 基本思路:将 query、key、value 线性投影到
2025-04-19
Attention
#DeepLearning #NLP #Transformer #AI #MultiHeadAttention

5. Positional Encoding 位置编码

5. Positional Encoding 位置编码 1. 动机 为什么要加位置编码? Self-Attention 本身不感知输入顺序,把序列当成无序集合(Set),缺乏序列(Sequence)信息。 必须人为注入"位置信息",让模型知道"顺序" (Transformer需要)。 和其他架构对比: CNN 通过卷积核隐式捕捉局部顺序 RN
2025-04-19
Attention
#DeepLearning #NLP #Transformer #AI #PositionEncoding

4. Self-Attention 自注意力

4. Self-Attention 自注意力 1. 核心思想 自注意力(Self-Attention) 是一种用于序列建模的机制,可以让序列中的每个元素都与其他所有元素建立直接联系,实现对全局依赖的建模。 在 NLP、CV 及各种序列任务中,自注意力显著提升了模型对远距离依赖的捕捉能力、并行计算效率和表达力。 2. 基本定义与结构 输入:一个长度为 n 的序列 x1,...,xn,每
2025-04-19
Attention
#DeepLearning #NLP #AI #Mechanism #SelfAttention

3. Bahdanau 注意力(Seq2Seq + Attention)

3. Bahdanau 注意力(Seq2Seq + Attention) 1. 动机 经典 Seq2Seq(编码器-解码器)模型使用两个 RNN: Encoder:把整个输入序列"压缩"为一个固定长度的上下文向量(context)。 Decoder:每一步都依赖这同一个 context 生成下一个输出。 局限性: 输入句子很长时,固定长度的 context 向量
2025-04-19
Attention
#DeepLearning #NLP #Attention #Bahdanau #Seq2Seq
123456…8

搜索

Hexo Fluid
载入天数... 载入时分秒...

Copyright © 2025 Artin Tan. All rights reserved.

总访问量 次 总访客数 人