推理时的 Harness 可以不只是拐杖,它更应该是训练时的脚手架
May 15, 2026 · research, arxiv2026
与其手调惩罚系数,不如让训练过程自己决定该压多狠
April 24, 2026 · research, ACL2026
SFT 不只是模仿,它更应该是 RL 的最优起点
April 12, 2026 · research, arxiv2026
RL 强化已有的能力,真正的突破需要 SFT 来破局
March 23, 2026 · research, ICLR2026