8. DeepSeek-V3（V2）详读 5 (设施+预训练+后训练)

这个部分涉及基础设施，预训练，后训练。只是对原文的整理，暂时没有扩展内容。

3. 基础设施

3.1. 计算集群

DeepSeek-V3 训练使用 2048 块 NVIDIA H800 GPU 的集群。每节点有 8 块 GPU，通过 NVLink 和 NVSwitch 互联，节点间通过 InfiniBand（IB）通信。

图 4 | 前向和反向块的重叠策略（transformer 块的边界未对齐）。橙色为前向，绿色为输入反向，蓝色为权重反向，紫色为流水线通信，红色为同步屏障。所有 all-to-all 和流水线通信都能完全隐藏，实现高效计算与通信重叠。

3.2. 训练框架

DeepSeek-V3 基于自研高效轻量级的 HAI-LLM 框架训练，采用 16 路流水线并行（PP）、64 路专家并行（EP，跨 8 节点）和 ZeRO-1 数据并行（DP）。

工程优化包括：

设计 DualPipe 算法，显著减少流水线气泡，并让前向与反向计算和通信高效重叠，解决跨节点通信瓶颈；
开发高效 all-to-all 通信内核，最大化 IB 和 NVLink 带宽利用，同时节省 SM 资源；
精细优化内存占用，无需昂贵的张量并行（TP）即可完成大模型训练。

3.2.1. DualPipe 与计算-通信重叠

跨节点专家并行会导致计算与通信比例低效（约 1:1）。为此，DeepSeek-V3 设计了创新的 DualPipe 流水线并行算法，通过高效重叠前向和反向计算-通信阶段，大幅减少流水线气泡并加速训练。

DualPipe 核心是将每个块细分为 attention、all-to-all dispatch、MLP 和 all-to-all combine 四部分，反向块进一步拆分输入和权重反向。各组件重排、手动分配 GPU 资源，实现计算与通信完全重叠，all-to-all 和 PP 通信可完全隐藏。最终实现双向流水线调度，即便模型更大，只要保持计算-通信比恒定，就能几乎消除通信开销。

图 5 | DualPipe 在 8 个 PP rank 和 20 个 micro-batch 下的调度示例，展示了两个方向的调度。反向 micro-batch 与前向对称，为简明起见省略了其 batch ID。被黑框包围的两个单元格表示它们的计算与通信完全重叠。

方法	气泡数（Bubble）	参数量（Parameter）	激活（Activation）
1F1B	$(P P - 1) (F + B)$	$1 \times$	$P P$
ZB1P	$(P P - 1) (F + B - 2 W)$	$1 \times$	$P P$
DualPipe（本方法）	$(\frac{P P}{2} - 1) (F & B + B - 3 W)$	$2 \times$	$P P + 1$

表 2 | 不同流水线并行方法的气泡数和内存使用对比。 $F$ 表示前向块执行时间， $B$ 表示完整反向块执行时间， $W$ 表示“权重反向”块执行时间， $F & B$ 表示前向与反向块重叠时的执行时间。

即便在通信压力不大的场景下，DualPipe 依然更高效。表 2 显示，相比 ZB1P 和 1F1B，DualPipe 大幅减少流水线气泡，激活内存峰值仅增加 $\frac{1}{P P}$ 倍。虽然需保留两份参数，但由于专家并行大，整体内存消耗影响很小。与 Chimera 方法不同，DualPipe 只要求流水线阶段和 micro-batch 都能被 2 整除，对 micro-batch 数无其他限制，而且 micro-batch 数增加时，气泡和激活内存不会继续增长。

3.2.2. 跨节点 All-to-All 通信的高效实现

为提升 DualPipe 计算性能，DeepSeek-V3 定制了高效的跨节点 all-to-all 通信内核，结合 MoE 门控和集群网络拓扑，节省了通信所需的 SM 数量。集群内节点间用 InfiniBand（IB）通信，节点内部用 NVLink（带宽是 IB 的 3.2 倍）。我们将每个 token 最多分发到 4 个节点，减少 IB 流量，IB 与 NVLink 通信完全重叠，平均每节点可高效选择 3.2 个专家，通信开销低。

采用 warp specialization 技术，将 20 个 SM 分为 10 个通信通道，分发和合并任务由专用 warp 动态分配，负载均衡。分发与合并内核与计算流重叠，通过定制 PTX 指令和自适应 chunk 大小，降低 L2 缓存压力，减少对其他计算任务的干扰。

3.2.3. 极致省内存且额外开销极低

为降低训练内存占用，DeepSeek-V3 采用多项优化：

RMSNorm 和 MLA 升投影重计算：反向传播时重算这些操作，无需长时存储激活，显著节省内存，计算开销极小。
EMA 参数存储在 CPU：模型参数的 EMA 保存在 CPU 内存，异步更新，不增加额外内存或时间成本。
多 token 预测的参数共享：在 DualPipe 下，嵌入层和输出头放在同一 PP rank，实现主模型与 MTP 模块参数和梯度的物理共享，进一步提升内存效率。

3.3. FP8 训练

受低精度训练进展启发，DeepSeek-V3 引入细粒度混合精度框架，采用 FP8 数据格式训练。为扩展 FP8 动态范围，我们结合 tile 级和 block 级量化，配合高精度累加，大幅降低反量化开销，实现高效 FP8 GEMM。

为进一步节省内存和通信，激活采用 FP8 存储与调度，优化器状态用 BF16 存储。实验证明，在训练 1 万亿 token 下，FP8 模型相对 BF16 损失误差始终低于 0.25%，优于训练随机性误差。

3.3.1. 混合精度框架

我们提出了一种用于 FP8 训练的混合精度框架，大部分计算密集操作采用 FP8 精度，部分关键操作保留高精度，以兼顾效率与数值稳定性（见图 6）。

为加速训练，核心 GEMM 运算（前向 Fprop、反向激活 Dgrad、权重反向 Wgrad）均用 FP8 实现，输入为 FP8，输出为 BF16 或 FP32。该设计可理论上提升计算速度一倍，并允许激活以 FP8 存储，显著降低显存占用。

图 7 |（a）我们提出了一种细粒度量化方法，用于缓解特征异常值带来的量化误差；为方便展示，仅以 Fprop 为例。（b）结合我们的量化策略，通过将 FP8 GEMM 在 CUDA 核心上以 $N_{C} = 128$ 元素为间隔进行高精度累加，进一步提升了 FP8 GEMM 的精度。

尽管 FP8 高效，但部分算子对低精度敏感，需保留高精度（BF16/FP32），如嵌入模块、输出头、MoE 门控、归一化、注意力等。这样有助于训练稳定。主权重、权重梯度和优化器状态也都高精度存储，相关显存开销通过跨 DP rank 切分大幅降低，对整体成本影响有限。

3.3.2. 量化与乘法带来的精度提升

我们提出多种策略提升 FP8 低精度训练的准确性，重点优化量化方法和矩阵乘法。

细粒度量化。 FP8 动态范围有限，易因异常值造成量化误差。我们采用更细的分组缩放：激活用 1×128 tile 级分组，权重用 128×128 block 级分组，提升了对异常值的适应能力和量化精度（见图 7(a)）。附录 B.2 讨论了激活采用 block 分组时可能引发的不稳定。

此外，在 GEMM 内维引入每组独立缩放因子，结合 FP32 累加方案，高效支持这一细粒度量化。这种方法与 Blackwell 架构 GPU 的微缩放格式高度一致，为适配新一代显卡提供了实践参考。

提升累加精度。 低精度 GEMM 运算易受溢出与下溢影响，训练准确性严重依赖高精度累加（通常为 FP32）。但 H800 GPU 上 FP8 GEMM 累加仅 14 位，K 维较大时误差明显放大，初步实验发现累加精度不足带来近 2% 相对误差。许多 FP8 框架默认低精度累加，限制了训练精度。

为此，我们将累加操作提升到 CUDA Core 的 FP32 精度：在 Tensor Core 执行 MMA 时，每累加 $N_{C}$ 间隔就将部分结果转到 CUDA Core 的 FP32 寄存器进行全精度累加，细粒度缩放因子也可高效引入解量化过程。这种方法在 H800 上可实现两个 WGMMA 并行，高效重叠。实验表明， $N_{C} = 128$ 是精度与效率的最佳权衡。

有效尾数优先于有效指数。 与以往用多种 FP8 格式（如 Fprop 用 E4M3，Dgrad/Wgrad 用 E5M2）不同，我们统一用 E4M3 格式以获得更高精度。这依赖于细粒度量化，tile/block 级缩放使同组元素可共享指数位，从而缓解动态范围受限问题。

在线量化。 我们摒弃历史最大值推断缩放因子的延迟量化方案，改为直接在每个 1×128 激活 tile 或 128×128 权重 block 上在线计算最大值，实时得到缩放因子并进行 FP8 量化，简化流程且更精确。

3.3.3. 低精度存储与通信

为降低显存和通信开销，DeepSeek-V3 结合 FP8 框架，将激活和优化器状态压缩至低精度。

低精度优化器状态。 AdamW 优化器的一阶、二阶矩用 BF16 替代 FP32 存储，无性能损失。主权重和累积梯度仍保留 FP32 以保证数值稳定。

低精度激活

Wgrad 操作及 Linear 反向过程激活值缓存为 FP8。
Attention 后 Linear 输入用定制 E5M6 格式存储，反向时从 1×128 tile 转为 128×1 tile，缩放因子取 2 的整数幂，减少量化误差。
MoE 中 SwiGLU 输入缓存为 FP8，反向时重算输出，同样采用细粒度量化，兼顾内存和精度。

低精度通信。 MoE 上采样前的激活量化为 FP8 后 dispatch，缩放因子为 2 的整数幂，与 FP8 Fprop 兼容。MoE 下采样前激活梯度亦如此。前向/反向 combine 操作保留 BF16，确保关键环节精度。

3.4. 推理与部署

DeepSeek-V3 在 H800 集群部署，节点内用 NVLink、节点间用 IB 全互联。为兼顾 SLO 和高吞吐，采用预填充与解码分离策略。

3.4.1. 预填充

部署单元：最小为 4 节点（32 GPU）。attention 用 TP4 + SP，结合 DP8，MoE 用 EP32，并采用训练同款 all-to-all 通信。浅层稠密 MLP 用 1 路 TP 节省通信。
负载均衡：引入冗余专家，将高负载专家复制、动态分配到不同 GPU，每张 GPU 除原有 8 个专家，还多 1 个冗余专家，共 32 个冗余专家，平衡负载且不明显增加通信。
吞吐提升：attention 与 MoE 不同 micro-batch 的操作重叠，提升整体吞吐、隐藏通信开销。
动态冗余探索：预分配更多专家，推理时仅激活部分，先算全局最优路由后分配专家，进一步提升负载均衡。

3.4.2. 解码

路由策略：共享专家视为高负载路由专家，每 token 选 9 个专家。最小部署单元为 40 节点（320 GPU），attention 用 TP4+SP+DP80，MoE 用 EP320，每 GPU 只托管 1 个专家，64 GPU 专用于冗余与共享专家。dispatch 和 combine 操作全程 IB 直连，配合 IBGDA 降低延迟。
负载均衡：定期统计在线负载，动态选冗余专家，但因每 GPU 只托管 1 专家，无需节点内分配调整。探索更细粒度动态冗余需更复杂的全局路由与 kernel 融合。
吞吐与资源分配：并行处理两组 micro-batch，attention 与另一组的 dispatch+MoE+combine 操作重叠。MoE 阶段 batch size 小，瓶颈在内存访问，不会影响计算。为不拖慢 attention，只为 MoE 分配极少量 SM 资源。

3.5. 硬件设计建议

针对 DeepSeek-V3 的 all-to-all 通信和 FP8 训练，我们向 AI 芯片厂商提出以下硬件设计建议。

3.5.1. 通信硬件

DeepSeek-V3 通过计算与通信重叠降低了对通信带宽的依赖，但当前的通信实现占用了宝贵的 SM（如 H800 GPU 的 132 个 SM 中需保留 20 个用于通信），限制了计算吞吐量，且让 SM 执行通信任务效率低下。

目前，SM 主要负责：

在 IB 和 NVLink 域间转发和聚合数据；
在 RDMA 缓冲区和输入/输出缓冲区之间搬运数据；
执行 all-to-all combine 的归约操作；
管理 chunked 数据在 IB 和 NVLink 域间跨专家传输。

我们建议厂商开发专用硬件协处理器（如 GPU 协处理器或 NVIDIA SHARP）卸载这些通信任务，让 SM 专注于计算。同时，建议新硬件支持统一的编程模型，简化 IB 和 NVLink 的通信操作，支持 computation unit 使用简单原语完成通信操作，并优化 IB-NVLink 域的调度。

3.5.2. 计算硬件

提高 Tensor Core 的 FP8 GEMM 累加精度
目前 NVIDIA Hopper 架构的 Tensor Core 实现下，FP8 GEMM 累加精度有限——仅使用每个尾数乘积最高 14 位，多余位被截断，累加结果也只有 14 位精度。我们的实现通过将 128 次 FP8×FP8 相乘的结果用 CUDA core 的 FP32 精度寄存器累加，部分缓解了这一限制。这有助于 FP8 训练成功，但本质上只是对 Hopper 架构 FP8 GEMM 累加精度缺陷的妥协。未来芯片需提升这一精度。

支持 tile/block 级量化
当前 GPU 仅支持 per-tensor 级别量化，缺乏对 tile/block 细粒度量化的原生支持。现有实现通过频繁将数据从 Tensor Core 移至 CUDA Core，降低了算力利用率。我们建议未来芯片直接支持更细粒度的量化，使 Tensor Core 能处理分组缩放的 MMA 操作，避免数据搬运，提高效率。

支持在线量化
现有实现的在线量化效率低，因频繁读写 HBM 影响性能。我们建议芯片将 FP8 cast 和 TMA 操作合并，直接在激活数据传输时进行量化，减少多次读写。同时，建议支持 warp 级 cast 指令加速流程，提升 layernorm 与 FP8 cast 的融合效率。另一方案是采用 near-memory 架构，将计算逻辑置于 HBM 附近，减少内存访问。

支持转置 GEMM 操作
当前架构将矩阵转置与 GEMM 融合时存在困难。在我们的工作流中，前向激活量化为 $1 \times 128$ 的 FP8 tile，反向时需要读取数据、进行反量化、转置、再量化为 $128 \times 1$ 的 tile 存储。为减少内存操作，建议未来芯片在 MMA 操作前直接从共享内存读取转置后的矩阵数据，以支持训练和推理的精度需求。结合 FP8 格式转换和 TMA 访问融合，可简化量化工作流。

4. 预训练

4.1 数据构建

DeepSeek-V3 预训练数据在 DeepSeek-V2 基础上，提升了数学与编程样本比例，扩展多语言覆盖，优化数据处理流程，减少冗余且保证多样性。受 Ding 等人启发，采用文档打包，确保数据完整但不加跨样本注意力掩码。总语料量为 14.8T 高质量分词。

分词器升级为基于字节的 BPE，词表扩展至 128K，优化多语言压缩，并引入标点+换行符组合 token。为减缓 token 边界偏差，训练时随机拆分部分组合 token，使模型能适应多行和特殊情况。

4.2 超参数

模型超参数

Transformer 层数：61，隐藏维度：7168，参数初始化标准差：0.006
MLA：注意力头数 $n_{h} = 128$ ，单头维度 $d_{h} = 128$
KV 压缩维度 $d_{c} = 512$ ，query 压缩 $d_{c}^{'} = 1536$ ，解耦 query/key 头 $d_{h}^{R} = 64$
除前 3 层外，FFN 全为 MoE，每层含 1 个共享专家和 256 路由专家，专家中间隐藏 2048
每 token 激活 8 个专家，最多路由到 4 个节点
多 token 预测深度 $D = 1$
增加 RMSNorm 层和缩放因子，总参数 671B，每 token 激活 37B 参数

训练超参数

优化器：AdamW， $β_{1} = 0.9$ ， $β_{2} = 0.95$ ，weight_decay=0.1
最大序列长度 4K，训练 14.8T token
学习率：前 2K 步线性增至 $2.2 \times 10^{- 4}$ ，10T token 保持不变，后 4.3T 余弦衰减至 $2.2 \times 10^{- 5}$ ，最后 500B 阶段降至 $7.3 \times 10^{- 6}$
梯度裁剪阈值 1.0，batch size 从 3072 增至 15360
各层路由专家分布于 8 节点、64 GPU，token 最多路由 4 节点
bias 更新速率 $γ$ ：前 14.3T 为 0.001，后 500B 为 0
balance loss $α = 0.0001$ ，MTP loss 权重 $λ$ ：前 10T 为 0.3，后 4.8T 为 0.1，最后 500B 为 0。

4.3 长上下文扩展

DeepSeek-V3 采用与 V2 类似的策略，通过 YaRN（Peng et al., 2023a）分两阶段扩展上下文长度：每阶段 1000 步，将窗口从 4K 扩展到 32K，再到 128K，配置与 V2 保持一致，仅作用于解耦共享 key。两阶段超参数： $s = 40$ ， $α = 1$ ， $β = 32$ ，缩放 $\sqrt{t} = 0.1 \ln s + 1$ ，序列长度依次为 32K（batch 1920）和 128K（batch 480），学习率均为 $7.3 \times 10^{- 6}$ 。

这种双阶段训练让 DeepSeek-V3 支持最长 128K 上下文，并在 NIAH 测试中保持高性能和强健性。

4.4. 评测

4.4.1. 评测基准

DeepSeek-V3 基础模型在多语言（以中英文为主）语料上预训练，评测覆盖中英文及多语言基准，评测体系集成于 HAI-LLM 框架。基准分为：

多学科多选题：MMLU、MMLU-Redux、MMLU-Pro、MMMLU、C-Eval、CMMLU
语言理解与推理：HellaSwag、PIQA、ARC、BBH
封闭式问答：TriviaQA、NaturalQuestions
阅读理解：RACE、DROP、C3、CMRC
指代消解：CLUEWSC、WinoGrande
语言建模：Pile
中文理解与文化：CCPM
数学：GSM8K、MATH、MGSM、CMath
代码：HumanEval、LiveCodeBench-Base、MBPP、CRUXEval
标准化考试：AGIEval（含中英文子集）

评测方式：多数采用困惑度，阅读理解、代码、数学等采用生成式评测。Pile 上用 BPB 衡量，保证 tokenizer 公平性。

4.4.2. 评测结果

表 3 展示 DeepSeek-V3 Base 与主流开源基础模型（DeepSeek-V2-Base、Qwen2.5 72B Base、LLaMA-3.1 405B Base）的对比，均在相同评测框架下测试。总体上，DeepSeek-V3-Base 在绝大多数基准上全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base，并在多项基准上超过参数量大约 11 倍的 LLaMA-3.1 405B Base，成为最强开源基础模型。

具体亮点：

相较 DeepSeek-V2-Base，结构、规模、数据全面升级，性能大幅提升。
面对 Qwen2.5 72B Base，即使激活参数仅一半，DeepSeek-V3-Base 在英多语、代码、数学评测表现更佳，中文评测也大多胜出。
对比 LLaMA-3.1 405B Base，DeepSeek-V3-Base 在多语种、代码、数学表现更优。

整体来看，DeepSeek-V3-Base 在 BBH、MMLU、DROP、C-Eval、CMMLU、CCPM 等评测中尤其突出。凭借高效架构与优化，每万亿 token 仅需 18 万 H800 GPU 小时，训练成本远低于同级大模型。

4.5. Discussion

4.5.1. 多 Token 预测（MTP）消融实验

表4展示了 MTP 策略在两个不同规模基线模型上的消融实验：小模型（157亿参数，1.33万亿token）、大模型（2287亿参数，5400亿token）。结构和数据一致，仅加入深度为1的MTP模块。推理时MTP模块被舍弃，推理成本不变。结果显示，MTP 能在大多数基准上持续提升模型表现。

4.5.2. 无辅助损失负载均衡消融实验

表5展示了无辅助损失负载均衡策略在同两组基线模型上的对比。与仅用辅助损失的基线（sigmoid门控+top-K归一化，超参数同DeepSeek-V2-Lite/V2）相比，移除辅助损失，改为无辅助损失策略后，多数评测基准表现更优。

4.5.3. 批量负载均衡 vs. 序列负载均衡

批量辅助损失更灵活，仅约束整体 batch，不强制每个序列平衡，有助于专家在不同领域专精。实验证明，辅助损失自由（auxiliary-loss-free）模型展现更强专家专精。
引入批量级辅助损失（鼓励每个 batch 内负载均衡），实验显示与无辅助损失方法表现相近，均优于序列辅助损失。
验证损失（1B MoE）：序列辅助损失 2.258，辅助损失自由 2.253，批量辅助损失 2.253。3B MoE：分别为 2.085 和 2.080。
虽然批量负载均衡在性能上更优，但也带来：① 某些小批次负载不均；② 推理时领域迁移负载不均。前者通过大规模并行自然缓解，后者可用冗余专家部署优化（见 3.4 节）。

5. 后训练

5.1. 监督式微调

构建包含 150 万条多领域指令微调数据集，每领域采用不同生成策略。
推理数据：数学、代码、逻辑题等数据由 DeepSeek-R1 生成，虽准确但有格式/冗长等问题。为此，先用专家模型（SFT+RL 训练）作为数据生成器，生成两种 SFT 样本（原始答案/系统提示+R1答案）。系统提示引导模型生成结构化回答。RL 阶段让模型融合 R1 风格，后用拒绝采样筛高质量样本，保证数据既简洁又有 R1 优势。
非推理数据：如创意写作、问答等由 DeepSeek-V2.5 生成，人工审核确保质量。
SFT 设置：DeepSeek-V3-Base 用 SFT 数据集分两轮微调，学习率 5×10⁻⁶ 余弦降到 1×10⁻⁶。训练时样本拼接，但用屏蔽策略确保样本间相互不可见。

5.2 强化学习

5.2.1 奖励模型

基于规则的奖励模型（Rule-Based RM）
针对可规则验证的问题（如数学题、LeetCode），要求模型输出指定格式便于自动校验，确保高可靠性，不易被利用。
基于模型的奖励模型（Model-Based RM）
针对开放式/主观题（如创意写作），使用奖励模型判定回复与标准答案或偏好一致性。奖励模型基于 DeepSeek-V3 SFT 检查点训练，偏好数据同时含最终奖励与推理链，以提升鲁棒性，防止被攻击。

5.2.2. 群组相对策略优化（Group Relative Policy Optimization, GRPO）

类似于 DeepSeek-V2，我们采用群组相对策略优化（GRPO）。该方法摒弃了通常与策略模型等规模的critic模型，而用群组分数估计基线。具体来说，对于每个问题 $q$ ，GRPO 从旧的策略模型 $π_{θ_{old}}$ 采样一组输出 $o_{1}, o_{2}, \dots, o_{G}$ ，然后通过最大化如下目标优化策略模型 $π_{θ}$ ：

\begin{aligned} J_{G R P O} (θ) & = E_{q \sim P (Q), {o_{i}}_{i = 1}^{G} \sim π_{θ_{o l d}} (O | q)} \\ [\frac{1}{G} \sum_{i = 1}^{G} (min (\frac{π_{θ} (o_{i} | q)}{π_{θ_{o l d}} (o_{i} | q)} A_{i}, clip (\frac{π_{θ} (o_{i} | q)}{π_{θ_{o l d}} (o_{i} | q)}, 1 - ϵ, 1 + ϵ) A_{i}) - β D_{K L} (π_{θ} | | π_{r e f}))] \end{aligned}

其中，KL 散度项为：

D_{K L} (π_{θ} | | π_{r e f}) = \frac{π_{r e f} (o_{i} | q)}{π_{θ} (o_{i} | q)} - \log \frac{π_{r e f} (o_{i} | q)}{π_{θ} (o_{i} | q)} - 1

其中， $ϵ$ 和 $β$ 是超参数， $π_{ref}$ 是参考模型， $A_{i}$ 是优势 (advantage)，其由群组内部各输出的奖励 $r_{1}, r_{2}, \dots, r_{G}$ 计算得到：

A_{i} = \frac{r_{i} - mean ({r_{1}, r_{2}, \dots, r_{G}})}{std ({r_{1}, r_{2}, \dots, r_{G}})}

我们在 RL 过程中引入了来自代码、数学、写作、角色扮演和问答等多领域的提示。这种方法不仅使模型更贴近人类偏好，也能在有监督微调数据有限的情况下提升基准任务表现。

5.3 评估

5.3.1. 评测设置

评测基准：除基础测试外，还在 IFEval、FRAMES、LongBench v2、GPQA、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench（2024年8-11月）、Codeforces、高中数学奥赛（CNMO 2024）、AIME 2024 等多数据集上评测。
对比基线：对比 DeepSeek-V2-0506、V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022、GPT-4o-0513 等主流开源/闭源模型，闭源模型通过官方API评测。
评测配置：MMLU、DROP、GPQA、SimpleQA 用 simple-evals 标准提示词，MMLU-Redux 用 Zero-Eval 格式（zero-shot），其他用官方协议和默认提示词。
代码与数学基准：HumanEval-Mul 涵盖 8 种主流编程语言。LiveCodeBench 用 CoT 和 non-CoT 两种方法，Codeforces 以选手百分比为指标，SWE-Bench Verified 用 agentless 框架，Aider 基准用 diff 格式。
数学评测：AIME、CNMO 2024 温度 0.7，结果为 16 次平均，MATH-500 用贪婪解码。所有模型每个 benchmark 最多输出 8192 个 token。

5.3.2. 标准评估

评测基准：除基础评测外，新增 IFEval、FRAMES、LongBench v2、GPQA、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench（2024年8-11月题）、Codeforces、CNMO 2024、AIME 2024 等。
对比基线：DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022、GPT-4o-0513（闭源模型用 API 测试）。
评测细节：
- MMLU、DROP、GPQA、SimpleQA 用 simple-evals 框架；MMLU-Redux 用 Zero-Eval zero-shot 设置。
- 代码和数学：HumanEval-Mul 覆盖 8 种语言；LiveCodeBench 用 CoT 与非CoT，Codeforces 按参赛百分比评测，SWE-Bench 用 agentless，Aider 用 diff 格式。
- 数学测试：AIME、CNMO 温度 0.7，取 16 次均值，MATH-500 用贪婪解码。所有模型单次输出最长 8192 tokens。
代码&数学结果：
- 工程类任务（如 SWE-Bench）DeepSeek-V3 略逊于 Claude-Sonnet-3.5-1022，但明显优于开源模型，对开源代码模型进步有推动意义。
- 算法类任务（如 HumanEval、LiveCodeBench）DeepSeek-V3 全面领先对比模型，得益于知识蒸馏提升代码生成与解题能力。
- 数学基准（AIME、MATH-500、CNMO 2024）DeepSeek-V3 均领先 Qwen2.5-72B 约 10 个百分点，体现了 DeepSeek-R1 蒸馏的强大作用。
中文基准：
- SimpleQA 上 DeepSeek-V3 比 Qwen2.5-72B 高出 16.4 分。
- C-Eval、CLUEWSC 等高难度中文任务两者表现相近，说明两款模型在中英任务均有极强优化。

5.3.3. 开放式任务评测

DeepSeek-V3 在开放式生成任务（如 AlpacaEval 2.0、Arena-Hard，裁判为 GPT-4-Turbo-1106）中表现卓越。
Arena-Hard 上，V3 胜率超 86%，与 Claude-Sonnet-3.5-1022 等顶级模型相当，是首个开源模型突破 85% 胜率，显著缩小开源与闭源差距。
AlpacaEval 2.0 上，DeepSeek-V3 胜率也领先于闭源/开源竞品，尤其在写作和简单问答场景表现突出，比 V2.5-0905 高 20%。

5.3.4. DeepSeek-V3 作为生成式奖励模型

DeepSeek-V3 作为奖励模型，在 RewardBench 基准下，与 GPT-4o-0806、Claude-3.5-Sonnet-1022 水平持平，优于其他版本。
利用投票等技术，V3 的判断能力可进一步提升，因此支持自我反馈和对齐，增强奖励过程的有效性与稳健性。

5.4. 讨论

5.4.1. 来自 DeepSeek-R1 的蒸馏

消融实验表明，DeepSeek-R1 蒸馏数据显著提升了 LiveCodeBench 和 MATH-500 表现，但也增加了平均响应长度。V3 训练时精心权衡性能和效率。
蒸馏优化后训练是有前景方向，尤其对复杂推理任务如数学和编程领域。未来将拓展至更多任务领域。

5.4.2. 自我奖励（Self-Rewarding）

RL 奖励关键，某些领域如编程/数学可用外部工具直接验证。但通用场景需 LLM 自身评判。
DeepSeek-V3 采用“宪法式 AI”方法，利用模型自身投票输出作反馈，有效提升了主观评估表现。
结合宪法式指令，模型可更好对齐预期方向。未来还将继续探索更通用、可扩展的奖励机制以推动模型持续进步。

5.4.3. 多Token预测评估

DeepSeek-V3 使用多Token预测（MTP）技术，每次直接预测下两个 token，结合 speculative decoding，显著加快解码速度。
第二个 token 的接受率达 85%~90%，多场景下表现稳定可靠，使 TPS 提升至 1.8 倍。

6. 结论、局限性与未来方向

DeepSeek-V3 是 671B MoE 大模型，激活参数 37B，训练数据 14.8T tokens。首创无辅助损失负载均衡和多Token预测目标，结合 MLA、DeepSeekMoE 架构，训练成本效益高（总计 2.788M H800 GPU 小时）。
后训练蒸馏了 DeepSeek-R1 推理能力，性能媲美 GPT-4o、Claude-3.5-Sonnet 等闭源模型，是最强开源模型之一。
局限性：推理资源需求高、部署单元较大，对小规模系统有压力；推理速度虽提升两倍，仍有优化空间。
展望：硬件升级有望进一步解决部署和速度限制。
DeepSeek 坚持开源、长期主义，致力于迈向 AGI。未来战略方向包括：
- 持续优化模型架构，提升训练与推理效率，实现更高效的无限上下文支持，尝试突破 Transformer 限制。
- 改进训练数据量与质量，拓展多样化训练信号来源，覆盖更广泛领域。
- 深化模型的推理和思考能力，提升智能水平和问题解决深度。
- 推动更全面多维的模型评估，避免过度优化单一基准，准确反映模型基础能力。

参考资料

DeepSeek AI. (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv preprint. arXiv:2405.04434
DeepSeek AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint. arXiv:2412.19437
Liang, Y., Wu, C., Song, T., Wu, W., Xia, Y., & Liu, Y. (2024). A Survey on Mixture of Experts in Large Language Models. arXiv preprint. arXiv:2407.06204
Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv preprint. arXiv:2101.03961
Zhou, Y., Lei, T., Du, H., Huang, L., & Zhao, J. (2024). Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. arXiv preprint. arXiv:2408.15664v1
Z. Lu and W. Xia, "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity," COS597G Lecture 16, Princeton University, 2022. Online. Available: COS597G Lecture 16
F. Glacial, A. B. Author2, and C. D. Author3 (2024). Better & Faster Large Language Models via Multi-token Prediction. arXiv preprint. arXiv:2404.19737
Y. Leviathan, M. Kalman, and Y. Matias (2023). Fast Inference from Transformers via Speculative Decoding. arXiv preprint. arXiv:2211.17192
K. Zhang, J. Zhao, and R. Chen, (2024). KOALA: Enhancing Speculative Decoding for LLM via Multi-Layer Draft Heads with Adversarial Learning. arXiv preprint. Available: arXiv:2408.08146
Transformers KV Caching Explained: How caching Key and Value states makes transformers faster
EZ撸paper: DeepSeek-V3 技术报告详细解读 part1 | 开源最强模型 | 性价比之王
EZ撸paper: DeepSeek-V3 技术报告详细解读 part2 | 开源最强模型 | 性价比之王的核心技术MLA
EZ撸paper: DeepSeek-V3 论文中的隐藏细节 part3 | 可能存在的问题
EZ撸paper: DeepSeek-V3 论文中的隐藏细节 part4 | 从入门到精通DeepSeek MTP