Neurowave
  • 首页
  • 归档
  • 分类
  • 标签
  • 说说
  • 统计
  • 关于

2. 注意力分数

2. Attention Scoring Function 1. 基本思想 注意力机制的核心:根据查询(query,q)和键(key,ki)的相关性分配权重,从所有值(value,vi)中"加权取信息"。 定义:注意力机制通过给每个值 vi 分配权重 α(q,ki),加权求和得到输出: f(q)=∑i=1mα(q,ki)vi​ 其中 α(q,ki) 是 attentio
2025-04-19
Attention
#DeepLearning #NLP #AI #Attention #Score

1. Attention 核心思想

1. Attention 核心思想 1. 动机 灵感:人类处理信息时,会选择性关注关键部分,注意力机制模仿了这一处理方式。 作用:序列模型面对长输入时,注意力机制让模型能分配不同"权重",聚焦重要信息片段。 实现:为每个输出位置,模型通过查询(query) 和 键(key) 计算相关性分数,对输入各部分进行加权汇聚,生成上下文表示。 2. 非参数注意力池化(Nadara
2025-04-18
Attention
#DeepLearning #NLP #AI #Attention #Mechanism

1.词嵌入(Word Embedding,Word2Vec)

1. 词嵌入(Word Embedding,Word2Vec) 1. 动机 独热向量(one-hot) 的问题: 高维稀疏性:独热向量维度极高,且大部分元素为 0。 缺乏语义相似性:无法表达词语间的语义关系(例如,"猫"和"狗"都是动物,但向量点积为 0)。 2. 自监督 Word2Vec 目标:将每个词映射到一个低维稠密向量,使语义相近的词
2025-04-18
NLP
#DeepLearning #NLP #AI #Embedding #Word2Vec

李沐《手动深度学习》环境配置问题

包括安装步骤、踩坑提示、适配d2l版本说明,适合写给想要在本地用 Jupyter Notebook 或者 PyCharm 学习这本书的朋友。 使用的环境配置(推荐) 组件 版本 Python 3.8 d2l 0.17.6 torch 1.13+ pandas >=1.2.4 jupyter notebook 看情况安装 版本过高,会导致一系列效果无法呈现
2025-04-16
NLP
#Error #DeepLearning #NLP #EnvironmentConfiguration #Python #PyTorch #Jupyter

4.长短期记忆网络 LSTM

4. 长短期记忆网络(Long short-term memory, LSTM) 核心思想:LSTM 通过引入"门控"机制,能够选择性地记住有用信息、忘记无用信息,有效缓解RNN在处理长序列时的"梯度消失"和"长期依赖"问题。 1. 门结构与功能 忘记门(Forget Gate)Ft:决定前一时刻记忆 Ct−1 有多少被保留到当前
2025-04-17
RNNs
#DeepLearning #NLP #RNN #SequenceModel #LSTM

3.门控循环单元 GRU

3. 门控循环单元(Gated Recurrent Unit, GRU) 核心思想:GRU 能动态决定当前时刻要"记住"多少过去的信息、要"遗忘"多少无用内容,从而有效缓解传统RNN的长期依赖问题。它通过"更新门"和"重置门"两个机制,灵活调整信息流。 1. 信息处理机制 不是每个历史信息都同等重要,GRU能自
2025-04-17
RNNs
#DeepLearning #NLP #RNN #SequenceModel #GRU

2.RNN相关基础知识

2. RNN 相关技术 1. 潜变量自回归模型与RNN RNN用潜变量 ht 总结历史信息,适合处理序列数据。 隐藏状态更新公式: ht=ϕ(Whhht−1+Whxxt+bh) ht:当前时间步的隐藏状态(记忆) ht−1:上一个时间步的隐藏状态(过去的记忆) xt:当前输入(如词向量) Whh,Whx:可学习的权重矩阵,用于融合历史和当前输入 b:偏置项 ϕ:激活函数(如 tanh 或
2025-04-17
RNNs
#DeepLearning #NLP #RNN #SequenceModel

1.文本预处理

1. 文本预处理 1. 序列模型 序列数据(时序结构):音乐,语言,视频,文本 建模方法:利用条件概率分解(Chain Rule)建模联合概率:P(a,b)=P(a)P(b|a)=P(b)P(a|b) 对条件概率的建模主要有两种方案: 马尔科夫假设:只依赖最近 τ 个历史数据点,简化模型复杂度 潜变量模型:用潜变量 ht=f(x1,...,xt−1) 概括历史信息,xt∼p(xt|ht)
2025-04-17
RNNs
#DeepLearning #NLP #RNN #TextPreprocessing #SequenceModel

数据科学 - 客户流失预测:基于随机森林的分析与优化

项目概述 本项目旨在帮助PowerCo(一个大型公用事业公司,提供电力和天然气服务)解决客户流失的问题。PowerCo面临的主要挑战是中小型企业(SME)客户的流失,尤其是在当前充满竞争的能源市场中。为了帮助PowerCo更好地理解客户流失的原因,我们的目标是识别导致客户流失的关键因素,并提出改进客户留存率的具体建议。 在这个项目中,我们将通过数据科学的方法,结合探索性数据分析(EDA)、特征工
2025-02-12
Projects
#GitHub #Python #ML #DataScience #Projects #CustomerChurn #Analysing #DataMining

MacOS-M2 如何进入恢复模式管理SIP

在 macOS M2 设备上,有时我们需要进入 恢复模式(Recovery Mode)来执行一些系统级的操作,比如关闭或开启 SIP(System Integrity Protection)。本文将详细介绍如何进入恢复模式,并管理 SIP 设置。 进入恢复模式 关闭 Mac:如果 Mac 处于开机状态,先正常关机。 进入恢复模式:按住 电源键,直到看到 Apple 标志和"启动选项&
2025-02-17
System
#macOS #M2 #SIP #SystemSecurity #System
1…345678

搜索

Hexo Fluid
载入天数... 载入时分秒...

Copyright © 2025 Artin Tan. All rights reserved.

总访问量 次 总访客数 人