9. RAFT（RAG + SFT）：让LLM更聪明地做领域特定 RAG

RAFT（RAG + SFT）

大语言模型（LLM）在通用知识推理上已经非常强，但在专业领域（医疗、法律、企业文档等）里，单靠预训练的“常识”并不够。通常有两条路来注入领域知识：

问题在于：

RAFT（Retrieval-Augmented Fine-Tuning） 就是要结合二者优点：既让模型学会领域知识，又训练它识别干扰信息，提高领域内 RAG 表现。

RAFT 的训练目标是模拟 领域特定的开卷考试，让模型学会：

对每个训练样本，准备：

$Q$ ：问题（Question）
$D^{*}$ ：黄金文档（Golden Document，包含答案）
$D_{1} . . . D_{k}$ ：干扰文档（Distractor Documents）
$A^{*}$ ：带推理链（Chain-of-Thought, CoT）的答案，并引用原文（##begin_quote## … ##end_quote##），然后给出详细推理过程。

数据混合策略：

$P %$ 的样本： $Q + D^{*} + D_{1} + \dots + D_{k} \to A^{*}$
$(1 - P) %$ 的样本： $Q + D_{1} + \dots + D_{k} \to A^{*}$ （无黄金文档，强迫模型依靠记忆回答）
这样既训练了利用上下文的能力，又保留了直接回答的能力。

在经典的监督微调（Supervised Fine-Tuning, SFT）中，训练与推理可表示为：

\begin{array}{r} Train: Q \to A \\ 0-shot Inference: Q \to A \\ RAG Inference: Q + D \to A \end{array}

在 RAFT 中，训练集包含两种形式：

Q + D^{*} + D_{1} + D_{2} + \dots + D_{k} \to A^{*}

Q + D_{1} + D_{2} + \dots + D_{k} \to A^{*}

在实验中，还引入了干扰文档数量 $k$ 与黄金文档比例 $P$ 两个关键超参数：

数据集
- 通用领域：Natural Questions、TriviaQA、HotpotQA
- 代码/API：HuggingFace Hub、Torch Hub、TensorFlow Hub（来自 Gorilla APIBench）
- 医疗领域：PubMedQA
对比方法
- LLaMA2-7B（0-shot 与 RAG）
- DSF（Domain-Specific Fine-tuning）（有/无 RAG）
- RAFT（本方法）
- GPT-3.5+RAG（参考上限）

表 1：主要结果（准确率 $%$ ）

模型	PubMed	Hotpot	HuggingFace	Torch Hub	TensorFlow
LLaMA2-7B	56.50	0.54	0.22	0.00	0.00
LLaMA2-7B+RAG	58.80	0.03	26.43	8.60	43.06
DSF	59.70	6.38	61.06	84.94	86.56
DSF+RAG	71.60	4.41	42.59	82.80	60.29
GPT-3.5+RAG	71.60	41.50	29.08	60.21	65.59
RAFT (LLaMA2-7B)	73.30	35.28	74.00	84.95	86.86

亮点：

Chain-of-Thought（CoT）重要性
- 不加 CoT → HotpotQA： $25.62 %$
- 加 CoT → HotpotQA： $35.28 % (+ 9.66 %)$
- 加 CoT → HuggingFace 提升 +14.93%
黄金文档比例 $P %$
- 最优比例不是 $100 %$ ！
- 不同数据集最佳
  - NQ：40%
  - TriviaQA：60%
  - HotpotQA：100%
- 原因：部分样本不提供黄金文档，能提升模型的记忆与泛化能力
干扰文档数量
- 训练中混入干扰文档能显著提升模型在测试时应对 top-k 检索结果的鲁棒性
- 如 NQ 最佳是 $D^{*} + 3$ 干扰，HotpotQA 最佳是 $D^{*} + 1$ 干扰