8. DeepSeek-V3(V2)详读 1(Abstract + Introduction)

DeepSeek-V3(V2)详读 1 (Abstract + Introduction)

这个文章巨长,内容比较多比较杂,里面涉及 DeepSeek-V3 和 DeepSeek-V2 的内容。会分成好几篇文章来讲解。

Abstract

  • 模型名称:DeepSeek-V3
  • 模型结构:专家混合模型(Mixture-of-Experts, MoE)
  • 参数规模:总参数 671B,每个 token 激活 37B
  • 主要技术
    • 多头潜在注意力(Multi-head Latent Attention, MLA)
    • DeepSeekMoE 架构
    • 无辅助损失的负载均衡策略(auxiliary-loss-free load balancing)
    • 多token预测训练目标(multi-token prediction)
  • 训练数据量:14.8T 高质量、多样token
  • 训练流程
    • 预训练(pre-training)
    • 监督微调(supervised fine-tuning)
    • 强化学习(reinforcement learning)
  • 评测表现
    • 超越其他开源模型
    • 性能接近主流闭源模型
  • 训练资源消耗:仅需 2.788M H800 GPU小时
  • 训练过程:非常稳定,无不可恢复的loss波动,无回滚
  • 模型开源地址https://github.com/deepseek-ai/DeepSeek-V3

先介绍一下数据集:

  1. MMLU-Pro:测试模型综合能力的数据集。是一个2024年才推出了的数据集(之前有个版本MMLU),这个数据集有12k个问题,不光需要模型的 knowledge,还需要模型的reasoning,是大家喜欢用的一个数据集来benchmark自己的模型。
  • 提升就是将4个options增加到10个options,这样随机猜对的概率就会降低。
  • 之前跟多考察模型的knowledge,现在增加一下考察reasoning的问题
  • 现在加了很多干扰的选项,让模型猜对的概率降低。
  • 可以查看一下domain knowledge,基本生活日常的数据集都涵盖(数学,物理,化学,法律,工程,经济学,健康,心理学,商学,生物,哲学,计算机,历史,其他)
  • DeepSeek第一个选用的数据集就是这个
  1. GPQA:测试模型是否能超过人类专家的数据集,性能天花板级别测试。是一个小的数据集,只有448个问题,但这些问题非常非常的难,需要博士生和博士学位的人才能回答的一类问题,而博士生们回答问题的正确率也只有65%。这个数据集是测试language model是否能超过人类专家。可以看到目前GPT-4 based baseline也只能达到39%的准确率。

  2. MATH500:考察模型的推理能力。是一个比较老的数据集,2023年由OpenAI做的一个数据集。通过数学的问题考察模型推理的能力。

  3. AIME 2024:考察模型的推理能力。这是每一年美国数学学会考试的题,所以这个数据集也是衡量模型在推理方面的能力。

  4. Codeforces:代码能力测试。是一个在线的编程比赛的网站,会有很多人类的程序员在这个网站提出一些challenge的问题,大家来解决,拼通过这种方式来比赛。考察编程能力并和人类程序员比较。

  5. SWE-bench Verified:代码能力测试。是OpenAI 2024年8月份发布的,主要来自于Github的issue,会给language model一些代码并告诉模型里面有bug这样类似的问题,让模型解决。

1. 引言(Introduction)

近年来,大型语言模型(LLMs)飞速发展,开源模型如 DeepSeek、LLaMA、Qwen 和 Mistral 等持续追赶闭源水平。DeepSeek-V3 是一款 671B 参数的专家混合(MoE)模型,每个 token 激活 37B 参数,兼顾高性能与低成本。

LLaMa 和 Qwen都 是dense架构,mistral 和 DeepSeek 都是 MoE架构

模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,并创新引入无辅助损失的负载均衡多 token 预测目标,进一步提升性能。训练上支持 FP8 混合精度,采用 DualPipe 算法实现高效流水线并行,优化通信与内存,无需昂贵的张量并行,显著提升训练效率。

  • 现在大模型用FP32撑不起来,但FP8 精度有限,会导致训练有稳定性方面的问题。DeepSeek使用 FP8 混合精度,应该有一些 trick来调节。
  • DualPipe 是流水线并行的方法,主要是利用多GPU 加速这个training 的过程。
  • 他们还会用一些方法改善 cross-node all-to-all communication的问题。现在都会用Nvidia 的GPU,提供的InfiniBand(IB) 和NVlink去增加GPU之间互相通讯的带宽。
  • 还对内存的使用进行了优化,避免使用tensor parallelism。tensor parallelism是一个比较简单的并行方法,但是会消耗很多计算资源。

DeepSeek-V3 预训练用 14.8T 高质量、多样化 tokens,过程稳定无重大损失波动。模型通过两阶段扩展上下文长度先到32k 再到128k,随后经 SFT、RL 微调对齐人类偏好,并从 DeepSeek-R1 蒸馏推理能力,实现生成质量与效率的平衡。

  • 在pre-traning 阶段,他们没有观察到任何的loss spikes 或 roll back,这是非常了不起的。不光将training的消耗降的很低,还非常的稳定。
  • 在post-training阶段,用标准的SFT 和 RL

训练成本表

训练成本 预训练 上下文扩展 后训练 总计
H800 GPU 小时 2664K 119K 5K 2788K
美元(USD) $5.328M $0.238M $0.01M $5.576M

表1:DeepSeek-V3 的训练成本,假设 H800 租用价格为 $2/GPU 小时。

DeepSeek-V3 在多项基准测试中表现卓越,尤其在代码和数学任务上,已成为当前最强的开源基础模型。对话版性能也超越其他开源模型,在多个标准和开放测试中接近 GPT-4o、Claude-3.5-Sonnet 等顶级闭源模型。

训练成本极低:每万亿 tokens 仅需 18 万 H800 GPU 小时。预训练仅用时两个月,总计 278.8 万 GPU 小时,约合 557.6 万美元(按每小时 $2 计算),显著优于同类大模型。这得益于算法、框架和硬件的协同优化。注意,成本仅包含正式训练,不含前期研究和实验。

pre-training的成本 5.328M USD 只是 claude 的 十分之一。

架构创新:在 DeepSeek-V2 基础上,DeepSeek-V3 推出无辅助损失的负载均衡策略,显著减少性能损失,并引入多 token 预测(MTP)训练目标,提升模型性能与推理速度。
预训练效率:首次大规模采用 FP8 混合精度训练,配合算法、框架和硬件协同优化,解决跨节点通信瓶颈,实现高效计算与通信重叠,大幅降低训练成本。仅用 266.4 万 GPU 小时完成 14.8 万亿 tokens 预训练,后续训练只需 10 万 GPU 小时。
后训练与知识蒸馏:通过蒸馏 DeepSeek-R1 系列模型的推理能力,显著提升推理表现,并能灵活控制输出风格和长度。

DeepSeek:

  • Input price
    • Cache hit:就是如果问过的问题,可以不再计算token,直接 retrieve,价格是 $0.014/ 1M tokens
    • Cache miss: 对于新问题,价格是$0.14/ 1M tokens
  • Output price:$0.28/1M tokens

ChatGPT 4o:

  • Input price: $2.5/1M tokens
    • Cached ** : $1.25/1M tokens
  • Output price: $10/1M tokens

Output 成本相差35倍!

参考资料


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

8. DeepSeek-V3(V2)详读 1(Abstract + Introduction)
http://neurowave.tech/2025/06/20/11-8.1-Deepseek-V3/
作者
Artin Tan
发布于
2025年6月20日
更新于
2025年8月16日