做这个工作的起点其实是一个挺朴素的疑问:Post-Training 大家都在做先 SFT 后 RL 的两阶段流程,但为什么 SFT 阶段的优化目标从来只盯着”模仿得像不像”,而不去想”这个起点对后续 RL 到底友不友好”?

我们越想越觉得这里有个根本性的错位——问题不是 SFT 或者 RL 哪个不够强,而是 SFT 往往已经把 RL 需要的探索空间压没了,两个阶段的目标其实在打架。

于是就有了 GIFTGibbs Initialization with Finite Temperature)。与其纠结 SFT 自身做得好不好,我们想回答一个更前置的问题:什么样的初始化策略,最有利于整个 Post-Training pipeline?


两阶段的内在冲突

现在主流推理模型的后训练大家都很熟悉了:先用高质量示范 SFT 把模型训到”会做”,再接 RL 通过可验证奖励去探索更优解。流程很自然,但仔细想想会发现一个根本矛盾——SFT 的目标是模仿专家轨迹,RL 的目标是探索高奖励轨迹,这两件事本身就有张力。

标准 SFT 用 one-hot supervision 做交叉熵优化,效果就是把概率质量强行压到示范 token 上,分布迅速塌缩。模型看起来确实更”像老师”了,但代价是它也不再愿意走别的路径——而 RL 恰恰需要这些没被完全压死的替代路径来做探索。

所以很多时候不是 RL 学不会,而是 SFT 先把可探索的空间给耗尽了


从全局目标出发:推导告诉我们什么

既然直觉上觉得 SFT 和 RL 的目标在打架,那不妨把整个 post-training 的全局目标正式写下来。RL 阶段我们真正想优化的是什么?其实就是在最大化任务 reward 的同时,别让策略跑得离 base model 太远:

\[J_{\text{RL}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta} \left[ R(x, y) - \frac{1}{\eta} D_{\text{KL}}\left(\pi_\theta(\cdot|x) \| \pi_{\text{base}}(\cdot|x)\right) \right]\]

这个目标其实有一个漂亮的闭式解——最优策略是一个 Gibbs distribution

\[\pi_{\text{global}}^*(y|x) = \frac{1}{Z_{\text{base}}(x)} \pi_{\text{base}}(y|x) \cdot e^{\eta R(x,y)}\]
其中 $Z_{\text{base}}(x) = \sum_y \pi_{\text{base}}(y x) e^{\eta R(x,y)}$ 是归一化常数。

这个结果的直觉很清晰:最优策略不是抛弃 base model 去追 reward,而是在 base model 的分布上做一次由 reward 驱动的重加权。 reward 高的轨迹被放大,reward 低的被抑制,但 base model 原有的结构信息始终在底下托着。

那 SFT 在这个全局图景里应该扮演什么角色?既然 RL 的最优解长这样,SFT 作为 RL 的初始化,理想情况下应该尽量靠近这个方向。我们推导出,最优的 SFT 初始化策略应该是:

\[\pi_{\text{sft}}^*(y|x) = \frac{1}{Z(x)} \pi_{\text{base}}(y|x) \cdot e^{\beta R(x,y)}\]

这里 $\beta = \eta - \lambda$ 是一个 finite inverse temperature——它控制着”向专家靠拢”的力度。

现在回头看标准 SFT 在干什么:one-hot 的交叉熵损失,本质上就是在说”我要求模型输出和示范一模一样”。在我们的框架里,这对应的恰好是 $\beta \to \infty$ 的极端情况——温度趋向零,分布塌缩成 Dirac delta,只剩下示范答案那一个尖峰。标准 SFT 的损失函数可以写成:

\[\mathcal{L}_{\text{SFT}}(\theta) = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} \sum_{t=1}^{|y^*|} \log \pi_\theta(y_t^* | x, y_{<t}^*)\]

这就是在拟合一个 one-hot target,完全无视了 base model 的分布。所以 distributional collapse 不是 SFT 的”副作用”,而是它目标函数的必然结果。


GIFT:把 SFT 重新定义为有温度的初始化

理论推导告诉我们方向了,剩下的问题是怎么把它变成一个可以训练的目标。

GIFT 的核心想法说起来很直接:不要让模型去拟合 one-hot 的示范 token,而是构造一个 soft target distribution 去拟合。 具体怎么构造呢?对于每个 token 位置 $t$,我们构造一组 advantage-adjusted 的 target logits:

\[\hat{z}_{t,k} = \begin{cases} \log p_{\text{ref}}(k|x, y_{<t}^*) + \beta & \text{if } k = y_t^* \\ \log p_{\text{ref}}(k|x, y_{<t}^*) & \text{if } k \neq y_t^* \end{cases}\]

然后对这组 logits 做 softmax 得到 target distribution $\pi_{\text{sft}}^*$。直觉上就是:在 base model($p_{\text{ref}}$)的原始分布上,给示范 token 加一个 $\beta$ 的 bonus,但不是直接把它拉成 one-hot。$\beta$ 越大越接近标准 SFT,$\beta$ 越小越接近 base model 原始分布。

最终的训练损失就是对这个 soft target 做 KL 散度:

\[\mathcal{L}_{\text{GIFT}}(\theta) = -\mathbb{E}_{(x, y^*) \sim \mathcal{D}} \left[ \sum_{t=1}^{|y^*|} \sum_{y_t \in \mathcal{V}} \pi_{\text{sft}}^*(y_t | x, y_{<t}^*) \log \pi_\theta(y_t | x, y_{<t}^*) \right]\]

和标准 SFT 的区别一目了然:标准 SFT 的 target 是 one-hot(只有示范 token 有梯度),GIFT 的 target 是一个 soft distribution(所有 token 都有权重,但示范 token 被适度放大)。这样训出来的模型,既学到了示范数据指示的方向,也没有丢掉 base model 原本的结构先验。


为什么这种初始化更适合接 RL

这里有一个经常被忽略的点:后续 RL 通常带 KL 约束,防止策略离初始化策略太远。这意味着初始化策略长什么样,会直接决定 RL 后面还能探索多大的空间。

如果初始化已经极度塌缩,RL 的搜索半径就被压得很小,很多潜在的高奖励轨迹根本采不到。GIFT 的目标就是让初始化本身就和后续 RL 的最优方向对齐——不是把 SFT 和 RL 混在一起训,而是重新定义 SFT 的角色:它应该服务于整个 pipeline 的全局最优,而不是只追求局部的模仿误差最小化。

所以 GIFT 解决的不是单纯的 SFT overfitting,而是两阶段目标不一致这个更底层的结构性问题。


实验

我们在 Qwen2.5-7B 和 Llama-3.1-8B 两个 backbone 上做了实验,训练数据用的是 DeepMath-103k 子集,SFT 之后统一接 GRPO 做 RL。评测覆盖了数学推理(GSM8K、AIME24、AIME25、MATH500)和 OOD 通用能力(HumanEval+、MBPP+),同时和 Direct SFT/RL、Unified Paradigms(LUFFY、ReLIFT)以及各种 SFT-then-RL 的 baseline(SFT + Entropy、Label Smoothing、KD、DFT、ASFT、PSFT)做了全面对比。

下面是完整的结果:

GIFT Main Results

结果里有几个值得展开说的点。

GIFT 在两个 backbone 上都拿到了最好的综合表现。 Qwen2.5-7B 上平均 59.55,Llama-3.1-8B 上平均 42.96,两个 backbone 上都显著领先所有 baseline。特别是在难度较高的 AIME24 和 AIME25 上,GIFT 的优势更明显——Qwen 上分别拿到 23.33 和 17.78,远超标准 SFT 的 13.33 和 14.44。这说明 GIFT 保留的探索空间在面对困难问题时确实能派上用场。

有意思的是和那些”也试图缓解 SFT 塌缩”的方法对比。 SFT + Entropy、Label Smoothing、KD 这些方法的思路都是给标准 SFT 打补丁——加个 entropy 正则、软化 label、用 KD 蒸馏。但它们本质上还是在 SFT 的框架内修修补补,没有从全局目标出发去重新定义 SFT 应该做什么。从结果看,这些方法在某些单项上可能有亮点(比如 SFT + Entropy 在 Llama 的 AIME24 上也拿到了 23.33),但综合表现都不如 GIFT 稳定。

OOD 泛化方面也值得注意。 HumanEval+ 和 MBPP+ 是代码生成任务,和训练数据的数学领域完全不同。GIFT 在 Qwen 上拿到 76.20 / 65.90,在 Llama 上拿到 44.50 / 50.80,都是同组最好。这印证了我们的理论预期:因为 GIFT 没有把分布暴力压到训练领域的极端,base model 对其他领域的通用能力也保住了更多。

最有意思的是探索能力的对比。 我们专门看了 RL 前的 pass@k scaling,发现一个很值得注意的现象:标准 SFT 在 pass@1 上未必更差,但随着采样数增加,它的收益增长明显变慢。以 Qwen2.5-7B 为例,RL 前标准 SFT 的 pass@1 甚至略高于 GIFT(39.79 vs 38.92),但到 pass@8,GIFT 反超到 62.81 vs 59.01。这其实就是 distributional collapse 最直观的证据——单样本看起来还行,但多采几次就没有足够的多样性继续涨点了。GIFT 保留了更宽的输出分布,给后续 RL 留出了真正有用的搜索空间。


关于温度的选择

我们还做了 inverse temperature 的消融分析,结论也符合直觉:太小则约束不够、离专家太远,太大则又逼近标准 SFT 的塌缩极限,最优点在中间某个 finite temperature 区间。而且不同 backbone 的最佳温度还不一样。

这说明问题不是”给 SFT 随便加点 entropy regularization 就行了”,而是需要一个有理论根基的、和全局 post-training 目标一致的温度化初始化框架。


写在最后

这个工作的核心观点其实就一句话:SFT 的目标不应该只是把模型训得像示范,而应该是为后续 RL 保留足够好的探索起点。 这两件事听起来像是一回事,但标准做法下它们的差别其实很大。希望 GIFT 能给大家在设计 post-training pipeline 时提供一个新的思考角度。



Citation

@article{zhao2026gift,
  title={GIFT: Reconciling Post-Training Objectives via Finite-Temperature Gibbs Initialization},
  author={Zhao, Zhengyang and Ma, Lu and Jiang, Yizhen and Ma, Xiaochen and Meng, Zimo and Shen, Chengyu and Tang, Lexiang and Sun, Haoze and Pei, Peng and Zhang, Wentao},
  journal={arXiv preprint arXiv:2601.09233},
  year={2026}
}