blog | Lu Ma

Research

让模型自己学会"开挂"，然后把外挂扔掉

推理时的 Harness 可以不只是拐杖，它更应该是训练时的脚手架

May 15, 2026 · research, arxiv2026

Long2Short 的第一性原理

与其手调惩罚系数，不如让训练过程自己决定该压多狠

April 24, 2026 · research, ACL2026

从 Post-Training 整体的角度反思 SFT

SFT 不只是模仿，它更应该是 RL 的最优起点

April 12, 2026 · research, arxiv2026

学 RL 所学不会的

RL 强化已有的能力，真正的突破需要 SFT 来破局

March 23, 2026 · research, ICLR2026