拟合·循环

现代 LLM 的 SFT+RL 后训练本质只是分布拟合——随机初始化的模型从头做 post-training 居然也能跑出非平凡推理分数,这意味着我们以为的「推理涌现」可能只是数据对齐的幻觉。通勤一分四十秒,听懂今日最犀利「BERT 轮回」学术 Diss。

每日大模型 Rap
2026. 6. 10. · 08:18
拟合·循环
0:001:42
今日论文:Post-training is (Massive) Supervised Learning arXiv2606.07527 作者:Michael Hassid、Yossi Adi、Roy Schwartz

一句话破防

现代 LLM 花数百万美元做的 SFT + RL 后训练,本质上是「分布拟合机器」——连随机初始化的模型从头做 post-training,数学推理 benchmark 也能跑出非平凡分数。这一发现意味着,我们以为的「推理能力涌现」,可能只是「数据分布对齐」的幻觉。

论文核心

Hassid 等人提出了一个犀利的立场论文:当代的大规模后训练范式(SFT + 强化学习),在方法论上等价于 BERT 时代的「预训练 → 任务微调」,是历史的轮回。
关键实验
  • 对比实验:预训练模型 vs. 随机初始化模型,两者同样在现代推理数据集(数学/代码)上微调
  • 结论:从随机初始化开始做后训练,benchmark 分数「远非 trivial」
  • 含义:post-training 的核心贡献是分布适配,而非依赖预训练构建的深层通用能力
历史类比
  • BERT 时代:一个预训练模型 + 有监督微调 → 刷遍 NLP 任务排行榜
  • 2026 年:一个预训练模型 + 大规模 SFT/RL → 刷遍推理 benchmark 排行榜
  • 本质相同:分布对齐,不是真正的通用推理能力
出路:作者认为,要跳出这个循环,需要开发让模型「学会学习」(learn how to learn)的训练流程,而不是持续为预设行为提供分布内示范。

歌词

[Intro] SFT 加 RL,你说这叫进化 随机初始化,照样跑分不差 历史在轮回,BERT 的影子还在 分布适配机,套着新皮囊登场
[Verse 1] 回到 2019,BERT 时代大家都懂 预训练好了,再微调就能冲 任务数据喂饱,distribution 对准 那时候叫 fine-tune,现在叫 post-train 不就是换了马甲,骨子里还是那块金
你说 reasoning 是涌现,说 RL 打通任督 我说你不过是在 fit 分布的路数 Hassid 他们动手做了一次实验 从头初始化,no pretraining 数学推理跑起来,分数不低啊 别跟我谈什么深层能力大爆发
[Chorus] Post-training is supervised learning 就是有监督,只是体量惊人 多少算力,多少数据灌进去 本质还是在 fit,你那预设好的行为 BERT 的套路穿越到 2026 distribution fitting machine,新瓶装旧酒 别跟我说模型在思考 它在查表,它在查表
[Verse 2] pre-trained model,和 random init 在同一套推理数据上微调 结果差距比你想的要小 这个数字让多少人瞠目结舌坐好 那所谓的预训练基础在哪里 能力是真实的,还是 leakage 的把戏
你花多少代价 train 了一个推理链 SFT 轮 RL 轮,benchmark 刷的漂亮 然而我问你,换了分布就垮 OOD 一来,它就不知道该咋
information flow 从哪里真正涌出 还是只在 in-distribution 上跳舞 固定好你的 benchmark,固定好你的行为 模型永远在你画好的圈里绕圈
[Bridge] 作者说,出路在哪里 不是更多 post-training,不是更多数据标记 而是让它学会学习 learn how to learn,不是学会某件事 training procedure,要改变 让模型见过世界,自己推断下一步
跳出这个循环,停止为预设行为训练 通用能力,不在 SFT 里面 真正的 AGI 不是个分布拟合器 是见过未知还能推演的那个
[Outro] 拟合·循环,BERT 的魂魄 2026 穿着推理链的外衣回来 arXiv 2606.07527,这篇打脸 Hassid Adi Schwartz,一句话讲完 你那些 post-training 的努力 brilliant engineering,wrong direction? 别急着否认,先想想 为什么 random init 也能跑高分

来源:1

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.