8. DeepSeek-V3（V2）详读 1（Abstract + Introduction）

DeepSeek-V3（V2）详读 1 （Abstract + Introduction）

这个文章巨长，内容比较多比较杂，里面涉及 DeepSeek-V3 和 DeepSeek-V2 的内容。会分成好几篇文章来讲解。

Abstract

模型名称：DeepSeek-V3
模型结构：专家混合模型（Mixture-of-Experts, MoE）
参数规模：总参数 671B，每个 token 激活 37B
主要技术：
- 多头潜在注意力（Multi-head Latent Attention, MLA）
- DeepSeekMoE 架构
- 无辅助损失的负载均衡策略（auxiliary-loss-free load balancing）
- 多token预测训练目标（multi-token prediction）
训练数据量：14.8T 高质量、多样token
训练流程：
- 预训练（pre-training）
- 监督微调（supervised fine-tuning）
- 强化学习（reinforcement learning）
评测表现：
- 超越其他开源模型
- 性能接近主流闭源模型
训练资源消耗：仅需 2.788M H800 GPU小时
训练过程：非常稳定，无不可恢复的loss波动，无回滚
模型开源地址： https://github.com/deepseek-ai/DeepSeek-V3

先介绍一下数据集：

MMLU-Pro：测试模型综合能力的数据集。是一个2024年才推出了的数据集（之前有个版本MMLU），这个数据集有12k个问题，不光需要模型的 knowledge，还需要模型的reasoning，是大家喜欢用的一个数据集来benchmark自己的模型。

提升就是将4个options增加到10个options，这样随机猜对的概率就会降低。

之前跟多考察模型的knowledge，现在增加一下考察reasoning的问题

现在加了很多干扰的选项，让模型猜对的概率降低。

可以查看一下domain knowledge，基本生活日常的数据集都涵盖（数学，物理，化学，法律，工程，经济学，健康，心理学，商学，生物，哲学，计算机，历史，其他）

DeepSeek第一个选用的数据集就是这个

GPQA：测试模型是否能超过人类专家的数据集，性能天花板级别测试。是一个小的数据集，只有448个问题，但这些问题非常非常的难，需要博士生和博士学位的人才能回答的一类问题，而博士生们回答问题的正确率也只有65%。这个数据集是测试language model是否能超过人类专家。可以看到目前GPT-4 based baseline也只能达到39%的准确率。

MATH500：考察模型的推理能力。是一个比较老的数据集，2023年由OpenAI做的一个数据集。通过数学的问题考察模型推理的能力。

AIME 2024：考察模型的推理能力。这是每一年美国数学学会考试的题，所以这个数据集也是衡量模型在推理方面的能力。

Codeforces：代码能力测试。是一个在线的编程比赛的网站，会有很多人类的程序员在这个网站提出一些challenge的问题，大家来解决，拼通过这种方式来比赛。考察编程能力并和人类程序员比较。

SWE-bench Verified：代码能力测试。是OpenAI 2024年8月份发布的，主要来自于Github的issue，会给language model一些代码并告诉模型里面有bug这样类似的问题，让模型解决。

1. 引言（Introduction）

近年来，大型语言模型（LLMs）飞速发展，开源模型如 DeepSeek、LLaMA、Qwen 和 Mistral 等持续追赶闭源水平。DeepSeek-V3 是一款 671B 参数的专家混合（MoE）模型，每个 token 激活 37B 参数，兼顾高性能与低成本。

LLaMa 和 Qwen都是dense架构，mistral 和 DeepSeek 都是 MoE架构

模型采用多头潜在注意力（MLA）和 DeepSeekMoE 架构，并创新引入无辅助损失的负载均衡和多 token 预测目标，进一步提升性能。训练上支持 FP8 混合精度，采用 DualPipe 算法实现高效流水线并行，优化通信与内存，无需昂贵的张量并行，显著提升训练效率。

现在大模型用FP32撑不起来，但FP8 精度有限，会导致训练有稳定性方面的问题。DeepSeek使用 FP8 混合精度，应该有一些 trick来调节。

DualPipe 是流水线并行的方法，主要是利用多GPU 加速这个training 的过程。

他们还会用一些方法改善 cross-node all-to-all communication的问题。现在都会用Nvidia 的GPU，提供的InfiniBand（IB）和NVlink去增加GPU之间互相通讯的带宽。

还对内存的使用进行了优化，避免使用tensor parallelism。tensor parallelism是一个比较简单的并行方法，但是会消耗很多计算资源。

DeepSeek-V3 预训练用 14.8T 高质量、多样化 tokens，过程稳定无重大损失波动。模型通过两阶段扩展上下文长度先到32k 再到128k，随后经 SFT、RL 微调对齐人类偏好，并从 DeepSeek-R1 蒸馏推理能力，实现生成质量与效率的平衡。

在pre-traning 阶段，他们没有观察到任何的loss spikes 或 roll back，这是非常了不起的。不光将training的消耗降的很低，还非常的稳定。

在post-training阶段，用标准的SFT 和 RL

训练成本表

训练成本	预训练	上下文扩展	后训练	总计
H800 GPU 小时	2664K	119K	5K	2788K
美元（USD）	$5.328M	$0.238M	$0.01M	$5.576M

表1：DeepSeek-V3 的训练成本，假设 H800 租用价格为 $2/GPU 小时。

DeepSeek-V3 在多项基准测试中表现卓越，尤其在代码和数学任务上，已成为当前最强的开源基础模型。对话版性能也超越其他开源模型，在多个标准和开放测试中接近 GPT-4o、Claude-3.5-Sonnet 等顶级闭源模型。

训练成本极低：每万亿 tokens 仅需 18 万 H800 GPU 小时。预训练仅用时两个月，总计 278.8 万 GPU 小时，约合 557.6 万美元（按每小时 $2 计算），显著优于同类大模型。这得益于算法、框架和硬件的协同优化。注意，成本仅包含正式训练，不含前期研究和实验。

pre-training的成本 5.328M USD 只是 claude 的十分之一。

架构创新：在 DeepSeek-V2 基础上，DeepSeek-V3 推出无辅助损失的负载均衡策略，显著减少性能损失，并引入多 token 预测（MTP）训练目标，提升模型性能与推理速度。
预训练效率：首次大规模采用 FP8 混合精度训练，配合算法、框架和硬件协同优化，解决跨节点通信瓶颈，实现高效计算与通信重叠，大幅降低训练成本。仅用 266.4 万 GPU 小时完成 14.8 万亿 tokens 预训练，后续训练只需 10 万 GPU 小时。
后训练与知识蒸馏：通过蒸馏 DeepSeek-R1 系列模型的推理能力，显著提升推理表现，并能灵活控制输出风格和长度。

DeepSeek：

Input price

Cache hit：就是如果问过的问题，可以不再计算token，直接 retrieve，价格是 $0.014/ 1M tokens

Cache miss: 对于新问题，价格是$0.14/ 1M tokens

Output price：$0.28/1M tokens

ChatGPT 4o:

Input price: $2.5/1M tokens

Cached ** : $1.25/1M tokens

Output price: $10/1M tokens

Output 成本相差35倍！

参考资料

DeepSeek AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv preprint. arXiv:2405.04434
DeepSeek AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint. arXiv:2412.19437
Liang, Y., Wu, C., Song, T., Wu, W., Xia, Y., & Liu, Y. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv preprint. arXiv:2407.06204
Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv preprint. arXiv:2101.03961
Zhou, Y., Lei, T., Du, H., Huang, L., & Zhao, J. (2024). Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. arXiv preprint. arXiv:2408.15664v1
Z. Lu and W. Xia, "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity," COS597G Lecture 16, Princeton University, 2022. Online. Available: COS597G Lecture 16
F. Glacial, A. B. Author2, and C. D. Author3 (2024). Better & Faster Large Language Models via Multi-token Prediction. arXiv preprint. arXiv:2404.19737
Y. Leviathan, M. Kalman, and Y. Matias (2023). Fast Inference from Transformers via Speculative Decoding. arXiv preprint. arXiv:2211.17192
K. Zhang, J. Zhao, and R. Chen, (2024). KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning. arXiv preprint. Available: arXiv:2408.08146
Transformers KV Caching Explained: How caching Key and Value states makes transformers faster
EZ撸paper: DeepSeek-V3 技术报告详细解读 part1 | 开源最强模型 | 性价比之王
EZ撸paper: DeepSeek-V3 技术报告详细解读 part2 | 开源最强模型 | 性价比之王的核心技术MLA
EZ撸paper: DeepSeek-V3 论文中的隐藏细节 part3 | 可能存在的问题
EZ撸paper: DeepSeek-V3 论文中的隐藏细节 part4 | 从入门到精通DeepSeek MTP