Self-Distillation as Privileged-Context Distillation

Overview

最近几篇 self-distillation 的论文，核心结构非常一致：

这三篇工作都不是传统意义上的“大模型蒸馏小模型”。更准确的表述是：同一个模型同时扮演 student 和 teacher，teacher 只是比 student 多看了一份特权上下文。

统一记号后，student policy 可以写成：

$$ \pi_\theta(\cdot\vert x,\hat y_{< t}) $$

teacher policy 可以写成：

$$ q_\theta(\cdot\vert x,z,\hat y_{< t}) $$

其中 $z$ 表示 teacher 额外可见的信息。student 先在自己的策略下采样：

$$ \hat y\sim\pi_\theta(\cdot\vert x) $$

然后在 student rollout 上最小化 teacher 和 student 的 token-level 分布差异：

$$ \mathcal L(\theta)=\mathbb E_{(x,z)}\mathbb E_{\hat y\sim \pi_\theta(\cdot\vert x)}\left[\sum_{t=1}^{|\hat y|}\mathcal D\left(q_\theta(\cdot\vert x,z,\hat y_{< t})\Vert \pi_\theta(\cdot\vert x,\hat y_{< t})\right)\right] $$

三篇论文的差别主要在于 $z$ 的来源：

在 SDFT 里，$z$ 是 expert demonstration
在 SDPO 里，$z$ 是 environment feedback，或者成功 rollout 提供的隐式反馈
在 OPSD 里，$z$ 是 ground-truth answer / verified solution

因此，这一类方法更接近 privileged-context distillation：先让 teacher 在更多上下文下形成一个更优的条件分布，再把这个分布蒸馏回 student。

Self-Distillation Enables Continual Learning

这篇Self-Distillation Enables Continual Learning讨论的是 continual learning：只有 demonstration，没有显式 reward，如何做 on-policy 学习并尽量减少 catastrophic forgetting。

Method

给定任务输入 $x$ 和 demonstration $c$：

student 只看到 $x$
teacher 看到 $x,c$

SDFT 在 student 自己生成的轨迹上最小化 reverse KL：

$$ L(\theta)=D_{KL}(\pi_\theta(\cdot\vert x)\Vert \pi(\cdot\vert x,c)) $$

这里的关键点有两个：

训练是 on-policy 的，因为轨迹来自当前 student，而不是离线 demo
teacher 的作用不是复述 demonstration，而是利用 ICL 根据 demonstration 形成一个 demonstration-aware policy

这篇论文更重要的部分，是把这个目标改写成一个 trust-region RL 问题。标准形式为：

$$ \pi_{k+1}=\arg\max_\pi \mathbb E_{y\sim \pi}[r(y,x)]-\beta D_{KL}(\pi(\cdot\vert x)\Vert \pi_k(\cdot\vert x)) $$

它的最优策略满足：

$$ \pi_{k+1}^*(y\vert x)\propto \pi_k(y\vert x)\exp(r(y,x)/\beta) $$

整理后可以得到 reward 的等价表达：

$$ r(y,x)=\beta\left(\log \pi_{k+1}^*(y\vert x)-\log \pi_k(y\vert x)\right)+C $$

真正的难点在于 $\pi_{k+1}^*$ 是未知的。论文在这里引入了 ICL assumption：

$$ \pi_{k+1}^*(y\vert x)\approx \pi(y\vert x,c) $$

也就是说，给定 demonstration 之后，同一个模型在 ICL 条件下形成的 teacher 分布，近似于“理解了任务意图之后的更优策略”。

将这个假设代回去，就得到 SDFT 对应的隐式 reward：

$$ r(y,x,c)=\log \pi(y\vert x,c)-\log \pi_k(y\vert x) $$

如果进一步拆到 token 级别：

$$ r_t(y_t\vert y_{<t},x,c)=\log\frac{\pi(y_t\vert y_{<t},x,c)}{\pi_k(y_t\vert y_{<t},x)} $$

因此，demonstration 并不是直接变成监督标签，而是先通过 ICL 改变了同一个模型的条件分布；随后，teacher/student 的 log-prob 差被解释成 reward。此时 policy gradient：

$$ \nabla J(\pi_k)=\mathbb E_{y\sim \pi_k}\left[\log\frac{\pi(y\vert x,c)}{\pi_k(y\vert x)}\nabla \log \pi_k(y\vert x)\right] $$

在期望上就与最小化

$$ D_{KL}(\pi_k(\cdot\vert x)\Vert \pi(\cdot\vert x,c)) $$

的梯度等价。于是整条链路可以写成：

demonstration 激活 teacher 的 ICL 能力
teacher 形成一个更懂任务意图的条件策略
teacher/student 分布差被重写成隐式 reward
student 在自己的 on-policy 轨迹上朝这个 reward 更高的方向更新

这也是这篇论文将 self-distillation 解释为 implicit IRL 的核心逻辑。

Experiment

实验结果集中说明了三件事：

在 skill learning 中，SDFT 相比 SFT、DFT、SFT + Re-invoke 取得了更好的 Pareto front，同时提升新任务能力并保留原有能力。
在 knowledge acquisition 中，SDFT 在 strict / lenient / OOD 三个指标上分别达到 89 / 100 / 98，而 SFT 为 80 / 95 / 80。
在 sequential learning 设置下，SDFT 能持续累积多个技能，而顺序 SFT 出现明显遗忘。
方法效果高度依赖模型的 ICL 能力，模型规模越大，SDFT 相对 SFT 的优势越明显。

SDFT sequential learning — 图1: 顺序学习三个技能时，SDFT 能在学习新任务的同时保留旧任务性能，而 SFT 会出现明显的灾难性遗忘。图片来自原论文 Figure 3。

SFT sequential learning — 图1: 顺序学习三个技能时，SDFT 能在学习新任务的同时保留旧任务性能，而 SFT 会出现明显的灾难性遗忘。图片来自原论文 Figure 3。

SDFT scaling — 图2: SDFT 的效果随模型规模提升而增强；右图显示 pass@k 提升并非简单的熵塌缩。图片来自原论文 Figure 4。

Summary

SDFT 可以看作“从 demonstrations 中做 on-policy 学习”的一种实现：没有显式 reward model，但 demonstration 通过 teacher 的 ICL 形成了一个可优化的隐式 reward。

Reinforcement Learning via Self-Distillation

这篇Reinforcement Learning via Self-Distillation关注 RLVR / tool use / coding 里的 credit assignment 问题：环境给出的反馈通常是 sequence-level 的，但训练真正需要的是 token-level 信号。