Neurowave
  • 首页
  • 归档
  • 分类
  • 标签
  • 说说
  • 统计
  • 关于

通知 + 心得

重要通知:网站更新计划变更 自 2025年4月20日 起,建站内容将全面转向 AI Agent 自动更新。 建站相关技术更新主要作为本人对博客更新日志 其他内容聚焦 机器学习(ML)、深度学习(DL)、大语言模型(LLMs) 等领域的核心思考。 由于CNNs, RNNs,NLP,Attention,Transformer 和Bert相关内容最开始是手写的理论笔记,内容还未整理完。(夸一下
2025-04-20 Updated within 7 days
Hexo
#通知 #心得

RAG 高级用法

本文系统梳理了 RAG(检索增强生成)的全链路实践路线,从技术树概览到 RAFT 方法论,从高效召回策略到 Qwen-Agent 构建超长上下文处理能力,再到 Ragas 框架的质量评估与实操。最后,总结了商业落地实施 RAG 工程的核心步骤。 1. NativeRAG 实现步骤 索引(Indexing) 文档加载 将企业内容部的私有化数据(语料:非结构化数据)进行清洗 数据质量把控部门
2025-06-30 Updated within 7 days
LLMs
#LLM #RAFT #RAG #AI #VectorDatabase #AdvancedRAG #RetrievalOptimization #QwenAgent #Ragas #Reranking #QueryExpansion

9. RAFT(RAG + SFT):让LLM更聪明地做领域特定 RAG

RAFT(RAG + SFT) 1. 背景与问题 大语言模型(LLM)在通用知识推理上已经非常强,但在专业领域(医疗、法律、企业文档等)里,单靠预训练的“常识”并不够。通常有两条路来注入领域知识: RAG(检索增强生成):推理时调用检索器,给 LLM 提供相关文档参考。 微调(Fine-tuning):直接用领域数据训练,让模型“学”到相关知识。 问题在于: 纯 RAG:像“开卷考试不复
2025-06-29 Updated within 7 days
Paper阅读
#Paper #LLM #RAFT #RAG #RetrievalAugmentedFineTuning #SupervisedFineTuning #ChainOfThought #DomainSpecific #AI

从0训练 LLM 的完整流程

全文来自对 【LLM】从零开始训练大模型 的整理,但由于原文格式上阅读不太舒服,花了很长时间整理,同时也扩展了一些内容。 原文的配图会更丰富,如果需要可以去原文查阅,下文只包含重要的效果图展示。 在这篇笔记中,详细梳理一个完整的大语言模型(LLM)训练流程,包括: 模型预训练(Pretraining) Tokenizer 训练 指令微调(Instruction Tuning) 奖励模型(Re
2025-04-24 Updated within 7 days
LLMs
#RLHF #NLP #LLM #Pretraining #AI #InstructionTuning #RewardModel

8. DeepSeek-V3(V2)详读 4(架构 + MTP)

DeepSeek-V3(V2)详读 4 (架构 + MTP) 今天我们继续撸 DeepSeek-v3 的 technical report,这一部分要讲的就是 Multi-Token Prediction(MTP)。MTP 是 DeepSeek 提升训练效率、增强推理能力的关键技术,也是一大 cost‑saving 技术。可以说,MTP就是 DeepSeek 降本增效的法宝。在正式讲细节前,还是t
2025-06-23 Updated within 7 days
Paper阅读
#Paper #DeepSeekV3 #MoE #MLA #MultiTokenPrediction #TrainingOptimization #LLM #Architecture #MTP #DeepSeekMoE

8. DeepSeek-V3(V2)详读 3(架构 + DeepSeekMoE)

DeepSeek-V3(V2)详读 3 (架构 + DeepSeekMoE) 本节主要内容:传统MoE架构、DeepSeekMoE、负载均衡(Load Balancing)、Switch Transformers(损失控制)、Switch Transformer的问题、DeepSeek的Loss-Free方法。 写在引用符号里的,都是添加的知识点和理解。没有添加的是原文翻译的concise整理
2025-06-22 Updated within 7 days
Paper阅读
#Paper #DeepSeekV3 #MoE #LoadBalancing #LLM #Architecture #AuxiliaryLossFree #SharedExpert

8. DeepSeek-V3(V2)详读 2(架构 + MLA)

DeepSeek-V3(V2)详读 2 (架构 + MLA) 这个部分是讲 架构 + MLA 的内容,补充了一些在 DeepSeek-V2 的内容,Attention,Multi-head Attention,softmax,KV cache,比较不同注意力变种(MHA, GQA, MQA, MLA)的 KV cache差异,RoPE,Decoupled RoPE。 2. 架构 DeepSee
2025-06-21 Updated within 7 days
Paper阅读
#Paper #DeepSeekV3 #MLA #Architecture #KVCache #Transformer #RoPE #DecoupledRoPE

RAG(检索增强生成)基础

1. 背景 大模型应用开发的三种模式,在选择使用哪种模式时,需要考虑 知识实时性、专业深度 以及 模型幻觉控制: Prompt(提示词工程) – 问题没问清楚 通过精心设计提示词,引导大模型生成期望输出。 RAG(Retrieval-Augmented Generation) – 缺乏背景知识 结合信息检索与文本生成,实时检索外部知识增强生成能力。 Fine-tuning(微调)
2025-06-29 Updated within 7 days
LLMs
#LLM #RAG #AI #LangChain #RetrievalAugmentedGeneration #VectorDatabase #Embedding #KnowledgeBase #FAISS

9.文章加密

Here's something encrypted, password is required to continue reading.
2025-02-07 Updated within 7 days
Hexo
#Hexo #js #HTML #css

8. DeepSeek-V3(V2)详读 1(Abstract + Introduction)

DeepSeek-V3(V2)详读 1 (Abstract + Introduction) 这个文章巨长,内容比较多比较杂,里面涉及 DeepSeek-V3 和 DeepSeek-V2 的内容。会分成好几篇文章来讲解。 Abstract 模型名称:DeepSeek-V3 模型结构:专家混合模型(Mixture-of-Experts, MoE) 参数规模:总参数 671B,每个 token 激活
2025-06-20 Updated within 7 days
Paper阅读
#Paper #DeepSeekV3 #MoE #MLA #MultiTokenPrediction #LoadBalancing #FP8 #TrainingOptimization #LLM #Architecture
123…8

搜索

Hexo Fluid
载入天数... 载入时分秒...

Copyright © 2025 Artin Tan. All rights reserved.

总访问量 次 总访客数 人