模型架构产业与竞争科研与技术前沿

Microsoft AI 的 MAI-Thinking-1:让模型思考不难,让它持续思考才难

DeepSeek、GLM、MAI 三家都在做推理 RL,但设计哲学完全不同

MAI-Thinking-1 深度解读 · 第二篇(共三篇)

· [1] 训练大模型不是造火箭,是攀岩 · [2] 让模型思考不难,让它持续思考才难(本篇) · [3] vibe coding 之后:AI 编程的工业化


2026 年有一个趋势已经很明显了:顶尖实验室不再满足于”让模型能回答问题”,它们想要的是”让模型学会思考”。这个转变靠的是一种叫”推理强化学习”的技术:给模型一道题,让它试着自己想,做对了给奖励,做错了再试。听上去和训练小狗差不多。

但这个比喻漏掉了最关键的事情。训练小狗的时候,你可以一直站在旁边看,错了立刻纠正。而训练一个大模型进行推理,每步训练都可能花掉几万美元。一次崩溃可能意味着半个月的工作白费。真正难的,不是”怎么让它开始想”,是”怎么让它连续想上几千步还不崩”。

Microsoft AI 的 MAI-Thinking-1 技术报告,回答的就是这个问题。它的解法可以概括成三个工程比喻:一个恒温器,自动维持模型创造力的健康区间;一个断路器,在极端情况出现时切断电路保护整个训练不烧毁;一套抢救流程,在偶尔崩溃后把学到的能力蒸馏出来搬到新模型上继续走。这三者合在一起,代表了 MAI 对推理训练的核心理念:一次跳多高不重要,能不滑下来才重要。

这是 MAI-Thinking-1 深度解读的第二篇。第一篇讨论了 MAI 的 pre-training 哲学:从 rank invariance 的失败到 Efficiency Gain 的诞生,以及为什么训练大模型不是造火箭,是攀岩。第三篇讨论最后一件事:训练用的题目和评分信号,是怎么被工业化地构建出来的。

DeepSeek V4 和 GLM-5 同样在解决这个问题,但切入点完全不同。读完三份报告,你会发现它们解决的是不同的子问题。


推理强化学习为什么这么容易崩

先花一分钟理解 GRPO 在做什么,因为后面的三个创新都是基于它改出来的。如果这个概念不清,整篇文章就失去了锚点。

GRPO 的做法很简单。给模型一道题,让它生成一组答案,比如 32 个。每个答案都打分,算出这组的平均分和标准差。如果某个答案的得分比平均分高,就把模型往那个方向推;如果比平均分低,就反过来推。这个”推”的具体方式是调整模型内部每个词的生成概率。

这个设计有两个好处。第一,不需要人类逐个打分,模型自己跟自己比就够了。第二,分数是相对的,不需要绝对评分标准,只要这组答案之间有区分度就行。

但它有一个致命缺陷。当模型连续训练几百步之后,它的输出会逐渐走向两个极端:要么极度自信,几乎每次都说同一句话,失去了探索新解法的能力;要么突然发疯,输出一堆随机字符,导致训练直接崩溃。研究人员把这个现象叫”熵坍塌”和”策略发散”,背后的原因是同一个:GRPO 的裁剪机制只约束了一半的更新方向,另一半是敞开的,极端情况下会被放大到毁灭的程度。

MAI 的三处修改,就是冲着这三个方向去的:自适应熵控制防止模型变得太死板,outer ratio clip 防止模型突然发疯,自蒸馏在偶尔崩溃后抢救进度。


第一个创新:像一个恒温器一样控制模型的”自信度”

想象你在教一个学生做题。如果他太自信了,每道题都用同一种方法,那他就学不到新东西。如果他太不自信了,每道题都乱试一通,那他也学不进去。你希望他在”有根据地尝试”和”稳定地做对”之间保持一个平衡。

MAI 的做法是在 GRPO 的裁剪机制上装了一个自动调节器。GRPO 原本有个固定的上限和下限,模型更新幅度不能超出这个范围。MAI 把上限做成了可以动态调整的:如果检测到模型越来越死板(entropy 在下降),就把上限拉高,允许它更大胆地尝试新方向;如果模型开始乱猜(entropy 在上升),就把上限压回来,让它收敛一点。

这个调节器是一个简单的积分控制器。每一步看一次当前的 entropy 和目标值差了多少,差多了就往反方向调。它不需要在损失函数里额外加一个”惩罚项”来强迫模型保持 diversity,而是直接在约束层面解决问题。MAI 发现,加惩罚项的效果远不如这种自动调节。

报告里的 Figure 13 展示了这个控制器工作时的样子。上方是模型的实际 entropy 曲线,在 800 步训练中围绕 0.3 的目标值上下波动;下方是调节参数 k 的变化,entropy 高了就降、低了就升。

Figure 13

这个机制的意思是:好的训练需要动态调整约束力度。模型太死板了就放开一点,太发散了就收紧一点。就像恒温器,检测温差之后做出相应的调节,而不是一直以最大功率制冷或制热。


第二个创新:给 GRPO 没有管到的角落加一个硬上限

GRPO 的设计有意留了两段不裁剪。如果模型主动修正自己的错误(原来概率低的方向现在变高了),不裁。如果模型主动放弃一个过度自信的猜测(原来概率高的方向现在变低了),也不裁。原始设计者的逻辑是:模型在做正确的事,不应该被限制。

但 MAI 在实践中发现,这两个”好意”偶尔会闯祸。当某次更新恰好落在这些不受约束的角落,而更新幅度又特别大时,梯度会爆炸,整批训练数据直接报废。

他们的解法简单到近乎粗暴:在 GRPO 已有的裁剪之外,再加一层绝对上限。不管你在哪个方向、是不是在做正确的事,只要新旧策略之间的差异超过了某个绝对值,就直接截断。这个上限设在很高的位置,正常情况下根本碰不到。它只是一个安全网。日常训练根本碰不到它,但能防止那万分之一的灾难性 spike。

如果第一个创新是恒温器,那这个就是断路器。平时它什么都不做,但一旦出现极端情况,它先把电断掉,保护整个电路不被烧毁。


第三个创新:训练崩了之后怎么抢救

前两个创新大幅减少了崩溃的发生概率,但没有办法彻底消灭它。根本原因是训练和推理之间的数值精度有微小的差异。训练用混合精度加速,推理用全精度保证质量。这两个精度在绝大部分情况下几乎一样,但偶尔会积累出肉眼可见的偏差。偏差累积到一定程度,模型的行为会突然偏离轨道。

面对这个问题,MAI 没有继续在精度层面死磕,直接接受了”偶尔会崩”这个事实,然后设计了一套抢救流程。

他们的方案叫自蒸馏。每隔一段时间,把当前模型生成的上百万条成功推理记录下来(做对的那些)。如果训练崩了,就拿这些记录去教导一个全新的模型。这个模型是一个干净的 checkpoint,没有受过之前那次崩溃的”污染”。这个过程相当于把老模型学会的东西提炼出来,倒进一个新容器里,然后从这个新容器继续训练。

报告里的 Figure 15 展示了他们的 STEM 模型训练全程。图中用星号标记了每次自蒸馏的位置,可以看到性能几次断崖式下跌后被拉了回来。

Figure 15

MAI 发现,大约 100 万条推理记录就足以让新模型追上老模型的水平。再多的话收益递减,反而可能把新模型的探索空间压得太窄。另外他们还发现,只用成功的记录和用全部记录(包括失败的)效果差不多,所以最终选择了只保留成功的。

这三个创新加在一起,构成了一套完整的”纪律体系”:恒温器维持日常状态的稳定,断路器扑灭极端事故,自蒸馏在偶尔失败后恢复进度。MAI 管这套体系叫”攀爬机器”。目标是连续几千步不滑下来,不是一步跳多高。


同样的难题,两个不同的解答

DeepSeek V4 和 GLM-5 也在做推理强化学习,用的也是 GRPO。但它们面临的瓶颈不在训练稳定性,所以解法完全不一样。

DeepSeek 的瓶颈是计算效率。它想做百万 token 上下文下的推理训练,但常规的注意力计算在百万 token 级别会涨到不可承受的程度。它的解法是重新设计注意力机制,用 CSA 和 HCA 两种压缩方案把单 token 的 FLOPs 降到之前的 27%,KV cache 降到 10%。这相当于把”百万 token 推理”从特种操作变成了常规操作。不是让模型想得更深,是让它想得更快。效率足够高,才能在同样的时间和预算内做更多轮 RL 训练。

GLM 的瓶颈是持久性。在 multi-turn agent 场景里,模型每轮都要重新推导一遍之前的上下文。到第三轮、第四轮,上下文越长,重推导的成本就越高。GLM 的解法是 Preserved Thinking:把上一轮的思考过程原样保留,下一轮直接从上次停下的地方继续。这省掉的是一个不断膨胀的重复成本,而不是一次计算。另外它还做了 Interleaved Thinking,在每次调用工具之前先想一下,确保动作是有依据的。合在一起看,GLM 的核心理念是让它不用每次都重想一遍,不是让它想得更快。

所以三家解决的是不同的问题。MAI 解决了训练稳定性,DeepSeek 解决了计算效率,GLM 解决了跨轮次的记忆。如果用一个比喻:MAI 在保证引擎不熄火,DeepSeek 在让引擎跑得更快,GLM 在让引擎记住上一次的路线。


真正的问题不是”能不能思考”

读完这三份报告的推理章节,一个结论会自然浮现:让模型开始思考这件事本身并不难。GRPO 已经是一个成熟的算法,各家用的都是类似的骨架。真正的分水岭在于:你能让它连续思考多久,在多大尺度上思考,以及这次思考和上次思考之间是什么关系。

MAI 的回答是”纪律”,用三个机制确保几千步训练不出大问题。DeepSeek 的回答是”效率”,用压缩注意力让百万 token 上下文不再遥不可及。GLM 的回答是”耐力”,用 Preserved Thinking 让模型不需要每轮重新开始。

它们不是在互相竞争,而是在合起来定义一个问题:怎么让思考从”能做到”变成”可持续”。而这个问题远远没有解决。MAI 的 entropy control 能不能扛过一万步?DeepSeek 的压缩注意力在 10M token 下还能撑住吗?GLM 的 Preserved Thinking 跨了一百轮之后会不会变得臃肿?没有人知道答案。

但这正是研究最有意思的阶段:问题已经不再是”能不能”,而是”能到多远”。下一次你看到一个新模型说它”会推理”了,别只看它对了几道题。看它的训练日志里有没有写到第几千步还稳不稳,看它的 RL 曲线是不是在某个节点突然断了。


本文基于 Microsoft AI 的 MAI-Thinking-1 技术报告、DeepSeek 的 DeepSeek-V4 报告、以及 Zhipu AI 的 GLM-5 报告,均发布于 2026 年。

鸭哥每日手记

日更的深度AI新闻和分析