注意力机制优化(书) 背景与意义 Transformer 结构中,自注意力机制的时间和存储复杂度与序列长度呈平方关系,占用大量计算和内存资源。 优化自注意力机制的时空复杂度、提升计算效率是大语言模型的重要问题。 优化方法包括稀疏近似、低秩近似等,同时也有硬件相关的高效计算方法。 稀疏注意力机制(Sparse Attention) 发现很多注意力矩阵元素是稀疏的,可以通过限制 Query-Key 对 数量来 2025-04-26 LLMs #DeepLearning #NLP #MLA #LLM #Transformer #Attention #SparseAttention #FlashAttention #MultiQueryAttention #MultiHeadLatentAttention #Optimization #MQA
LLaMa(书) 绝大多数大语言模型采用类似GPT的自回归Transformer解码器架构,各模型在位置编码、归一化、激活函数等细节有所不同。 GPT-3未开源,社区有OPT等开源复现;MetaAI基于GPT-3架构开源了LLaMA,效果优秀。 OpenAI的GPT-3后续模型未再开源。后续结构分析主要参考LLaMA。 LLaMA采用的Transformer结构与GPT-2类似,主要改进有: 前置层归一化( 2025-04-26 LLMs #DeepLearning #NLP #LLM #Transformer #RoPE #Pretraining #Finetuning #SelfSupervisedLearning #LLaMA #Language_Model #RMSNorm #SwiGLU
GPT(书) 1. GPT发展历史 GPT-1 是最早的版本,用了自回归语言建模,在 BooksCorpus 数据上训练,模型小,效果有限,但它首次验证了“预训练+微调”的可行性。 GPT-2 模型更大了(从一亿到十五亿参数),训练数据也更多,首次展示了“只用预训练、不需要微调”也能完成很多任务,叫做 Zero-shot learning,震惊了整个 NLP 社区。 GPT-3 是爆火的版本,参数到了 一千 2025-04-25 LLMs #DeepLearning #Regularization #NLP #LLM #Transformer #Pretraining #GPT #Finetuning #SelfSupervisedLearning #LanguageModel
Conda环境配置 以下步骤基于 MacOS 系统(MacBookAir M2),如果是 Windows 系统,命令会不同。 1. 官网下载安装 下载mini conda:https://www.anaconda.com/download/success 1.1 安装完成后测试 使用以下命令查看版本和测试安装是否成功: 1conda --verison Terminal显示如下状态: 1conda 24.11.1 2025-01-24 LLMs #AI #conda #EnvironmentConfiguration #Python #Tools
13. 添加博客访问统计面板 想给博客加个访问统计面板,我尝试用 Cloudflare Web Analytics 的 GraphQL API 实现数据可视化,结果踩了一堆坑——免费版连国家来源、设备类型都查不了!折腾12小时后,我转向开源工具 Umami ,终于搞定了实时 PV/UV、访客分布、设备统计等全维度数据展示。 本文记录从 Cloudflare API 接入到放弃的全过程,并手把手教你用 Umami 快速搭建功能完 2025-07-15 Hexo #Hexo #Cloudflare #WebAnalytics #ECharts #Umami
AutoDL GPU介绍 所有价格来自AutoDL,下面分析内容来自 ChatGPT 4.1,2025年8月价格。 【A类:NVIDIA 数据中心卡——主流大模型首选】 A100-PCIE-40GB / 40GB 价格:3.45元/时 配置:10核CPU,72GB内存 点评: 大模型训练/微调/推理首选,兼容性拉满,社区主流模型官方支持,单卡 40GB 显存能推理 33B/微调 13B。 唯一缺点就是贵,但绝对省 2025-08-01 LLMs #LLM #AI #GPU #Hardware #AutoDL #A100 #V100 #RTX #Training #Inference
LLMs基本概念 + 发展历史 + 构建流程(书) 大模型绪论 1.1 大语言模型的基本概念 什么是大语言模型? 大语言模型(LLM):指参数量达到数百亿甚至更多的深度神经网络模型,通常使用自监督学习方法,在海量未标注文本上训练。 2018年以来,BERT、GPT等模型相继发布,全面提升NLP任务效果。 2022年11月ChatGPT发布后,LLM能力爆红,大家都知道AI能聊天、写文案、做摘要、翻译,甚至表现出"世界知识" 2025-04-19 LLMs #NLP #LLM #AI #Theory
OpenAI 常用参数 max_tokens:控制生成内容的长度。 temperature:控制生成内容的随机性和创造性。 n:生成多个回答供选择。 top_p:通过概率控制生成内容的多样性。 presence_penalty:鼓励生成新内容,避免重复。 frequency_penalty:减少词语重复,提高多样性。 stream:控制生成的文本是否以流式方式逐步发送。 1. temperature(温度参数) 2025-02-21 LLMs #LLM #AI #OpenAI #API #parameters
2. Transformer(书) 大语言模型的核心目标是对自然语言的概率分布进行建模。 Transformer架构自2017年提出后成为自然语言处理和机器翻译领域的主流模型架构。 1. Transformer 结构 1.1 Transformer 结构简介 Transformer 架构:2017年由Google提出,用于机器翻译的神经网络模型。 基本目标:将源语言(Source Language)转换为目标语言(Tar 2025-04-21 Transformer #NLP #LLM #Transformer #Theory #Structure
12. 更换域名的 DNS 服务器 在这篇博客中,我将分享如何通过更换 DNS 服务器来管理你的域名,特别是如何将域名从阿里云迁移到 Cloudflare,并在 GitHub Pages 上成功配置自定义域名。我会详细介绍每一步的操作,确保你能够顺利完成 DNS 设置,避免常见的错误,并启用 HTTPS 保证站点的安全。 1. 在阿里云更换 DNS 服务器 步骤: 登录到阿里云控制台: 打开 阿里云官网。 使用你的账户登录 2025-06-05 Hexo #Hexo #deploy #js #DNS #domain #Github