模型架构产业与竞争科研与技术前沿

Microsoft AI 的 MAI-Thinking-1：让模型思考不难，让它持续思考才难

发布于 2026 年 6 月 3 日

DeepSeek、GLM、MAI 三家都在做推理 RL，但设计哲学完全不同

MAI-Thinking-1 深度解读 · 第二篇（共三篇）

· [1] 训练大模型不是造火箭，是攀岩 · [2] 让模型思考不难，让它持续思考才难（本篇） · [3] vibe coding 之后：AI 编程的工业化

2026 年有一个趋势已经很明显了：顶尖实验室不再满足于”让模型能回答问题”，它们想要的是”让模型学会思考”。这个转变靠的是一种叫”推理强化学习”的技术：给模型一道题，让它试着自己想，做对了给奖励，做错了再试。听上去和训练小狗差不多。

但这个比喻漏掉了最关键的事情。训练小狗的时候，你可以一直站在旁边看，错了立刻纠正。而训练一个大模型进行推理，每步训练都可能花掉几万美元。一次崩溃可能意味着半个月的工作白费。真正难的，不是”怎么让它开始想”，是”怎么让它连续想上几千步还不崩”。

Microsoft AI 的 MAI-Thinking-1 技术报告，回答的就是这个问题。它的解法可以概括成三个工程比喻：一个恒温器，自动维持模型创造力的健康区间；一个断路器，在极端情况出现时切断电路保护整个训练不烧毁；一套抢救流程，在偶尔崩溃后把学到的能力蒸馏出来搬到新模型上继续走。这三者合在一起，代表了 MAI 对推理训练的核心理念：一次跳多高不重要，能不滑下来才重要。

这是 MAI-Thinking-1 深度解读的第二篇。第一篇讨论了 MAI 的 pre-training 哲学：从 rank invariance 的失败到 Efficiency Gain 的诞生，以及为什么训练大模型不是造火箭，是攀岩。第三篇讨论最后一件事：训练用的题目和评分信号，是怎么被工业化地构建出来的。

DeepSeek V4 和 GLM-5 同样在解决这个问题，但切入点完全不同。读完三份报告，你会发现它们解决的是不同的子问题。

推理强化学习为什么这么容易崩

先花一分钟理解 GRPO 在做什么，因为后面的三个创新都是基于它改出来的。如果这个概念不清，整篇文章就失去了锚点。

GRPO 的做法很简单。给模型一道题，让它生成一组答案，比如 32 个。每个答案都打分，算出这组的平均分和标准差。如果某个答案的得分比平均分高，就把模型往那个方向推；如果比平均分低，就反过来推。这个”推”的具体方式是调整模型内部每个词的生成概率。

这个设计有两个好处。第一，不需要人类逐个打分，模型自己跟自己比就够了。第二，分数是相对的，不需要绝对评分标准，只要这组答案之间有区分度就行。

但它有一个致命缺陷。当模型连续训练几百步之后，它的输出会逐渐走向两个极端：要么极度自信，几乎每次都说同一句话，失去了探索新解法的能力；要么突然发疯，输出一堆随机字符，导致训练直接崩溃。研究人员把这个现象叫”熵坍塌”和”策略发散”，背后的原因是同一个：GRPO 的裁剪机制只约束了一半的更新方向，另一半是敞开的，极端情况下会被放大到毁灭的程度。

MAI 的三处修改，就是冲着这三个方向去的：自适应熵控制防止模型变得太死板，outer ratio clip 防止模型突然发疯，自蒸馏在偶尔崩溃后抢救进度。

第一个创新：像一个恒温器一样控制模型的”自信度”

想象你在教一个学生做题。如果他太自信了，每道题都用同一种方法，那他就学不到新东西。如果他太不自信了，每道题都乱试一通，那他也学不进去。你希望他在”有根据地尝试”和”稳定地做对”之间保持一个平衡。

MAI 的做法是在 GRPO 的裁剪机制上装了一个自动调节器。GRPO 原本有个固定的上限和下限，模型更新幅度不能超出这个范围。MAI 把上限做成了可以动态调整的：如果检测到模型越来越死板（entropy 在下降），就把上限拉高，允许它更大胆地尝试新方向；如果模型开始乱猜（entropy 在上升），就把上限压回来，让它收敛一点。

这个调节器是一个简单的积分控制器。每一步看一次当前的 entropy 和目标值差了多少，差多了就往反方向调。它不需要在损失函数里额外加一个”惩罚项”来强迫模型保持 diversity，而是直接在约束层面解决问题。MAI 发现，加惩罚项的效果远不如这种自动调节。

报告里的 Figure 13 展示了这个控制器工作时的样子。上方是模型的实际 entropy 曲线，在 800 步训练中围绕 0.3 的目标值上下波动；下方是调节参数 k 的变化，entropy 高了就降、低了就升。

这个机制的意思是：好的训练需要动态调整约束力度。模型太死板了就放开一点，太发散了就收紧一点。就像恒温器，检测温差之后做出相应的调节，而不是一直以最大功率制冷或制热。

第二个创新：给 GRPO 没有管到的角落加一个硬上限

GRPO 的设计有意留了两段不裁剪。如果模型主动修正自己的错误（原来概率低的方向现在变高了），不裁。如果模型主动放弃一个过度自信的猜测（原来概率高的方向现在变低了），也不裁。原始设计者的逻辑是：模型在做正确的事，不应该被限制。

但 MAI 在实践中发现，这两个”好意”偶尔会闯祸。当某次更新恰好落在这些不受约束的角落，而更新幅度又特别大时，梯度会爆炸，整批训练数据直接报废。

他们的解法简单到近乎粗暴：在 GRPO 已有的裁剪之外，再加一层绝对上限。不管你在哪个方向、是不是在做正确的事，只要新旧策略之间的差异超过了某个绝对值，就直接截断。这个上限设在很高的位置，正常情况下根本碰不到。它只是一个安全网。日常训练根本碰不到它，但能防止那万分之一的灾难性 spike。

如果第一个创新是恒温器，那这个就是断路器。平时它什么都不做，但一旦出现极端情况，它先把电断掉，保护整个电路不被烧毁。

第三个创新：训练崩了之后怎么抢救

前两个创新大幅减少了崩溃的发生概率，但没有办法彻底消灭它。根本原因是训练和推理之间的数值精度有微小的差异。训练用混合精度加速，推理用全精度保证质量。这两个精度在绝大部分情况下几乎一样，但偶尔会积累出肉眼可见的偏差。偏差累积到一定程度，模型的行为会突然偏离轨道。

面对这个问题，MAI 没有继续在精度层面死磕，直接接受了”偶尔会崩”这个事实，然后设计了一套抢救流程。

他们的方案叫自蒸馏。每隔一段时间，把当前模型生成的上百万条成功推理记录下来（做对的那些）。如果训练崩了，就拿这些记录去教导一个全新的模型。这个模型是一个干净的 checkpoint，没有受过之前那次崩溃的”污染”。这个过程相当于把老模型学会的东西提炼出来，倒进一个新容器里，然后从这个新容器继续训练。

报告里的 Figure 15 展示了他们的 STEM 模型训练全程。图中用星号标记了每次自蒸馏的位置，可以看到性能几次断崖式下跌后被拉了回来。

MAI 发现，大约 100 万条推理记录就足以让新模型追上老模型的水平。再多的话收益递减，反而可能把新模型的探索空间压得太窄。另外他们还发现，只用成功的记录和用全部记录（包括失败的）效果差不多，所以最终选择了只保留成功的。

这三个创新加在一起，构成了一套完整的”纪律体系”：恒温器维持日常状态的稳定，断路器扑灭极端事故，自蒸馏在偶尔失败后恢复进度。MAI 管这套体系叫”攀爬机器”。目标是连续几千步不滑下来，不是一步跳多高。

同样的难题，两个不同的解答

DeepSeek V4 和 GLM-5 也在做推理强化学习，用的也是 GRPO。但它们面临的瓶颈不在训练稳定性，所以解法完全不一样。

DeepSeek 的瓶颈是计算效率。它想做百万 token 上下文下的推理训练，但常规的注意力计算在百万 token 级别会涨到不可承受的程度。它的解法是重新设计注意力机制，用 CSA 和 HCA 两种压缩方案把单 token 的 FLOPs 降到之前的 27%，KV cache 降到 10%。这相当于把”百万 token 推理”从特种操作变成了常规操作。不是让模型想得更深，是让它想得更快。效率足够高，才能在同样的时间和预算内做更多轮 RL 训练。

GLM 的瓶颈是持久性。在 multi-turn agent 场景里，模型每轮都要重新推导一遍之前的上下文。到第三轮、第四轮，上下文越长，重推导的成本就越高。GLM 的解法是 Preserved Thinking：把上一轮的思考过程原样保留，下一轮直接从上次停下的地方继续。这省掉的是一个不断膨胀的重复成本，而不是一次计算。另外它还做了 Interleaved Thinking，在每次调用工具之前先想一下，确保动作是有依据的。合在一起看，GLM 的核心理念是让它不用每次都重想一遍，不是让它想得更快。

所以三家解决的是不同的问题。MAI 解决了训练稳定性，DeepSeek 解决了计算效率，GLM 解决了跨轮次的记忆。如果用一个比喻：MAI 在保证引擎不熄火，DeepSeek 在让引擎跑得更快，GLM 在让引擎记住上一次的路线。

真正的问题不是”能不能思考”

读完这三份报告的推理章节，一个结论会自然浮现：让模型开始思考这件事本身并不难。GRPO 已经是一个成熟的算法，各家用的都是类似的骨架。真正的分水岭在于：你能让它连续思考多久，在多大尺度上思考，以及这次思考和上次思考之间是什么关系。

MAI 的回答是”纪律”，用三个机制确保几千步训练不出大问题。DeepSeek 的回答是”效率”，用压缩注意力让百万 token 上下文不再遥不可及。GLM 的回答是”耐力”，用 Preserved Thinking 让模型不需要每轮重新开始。

它们不是在互相竞争，而是在合起来定义一个问题：怎么让思考从”能做到”变成”可持续”。而这个问题远远没有解决。MAI 的 entropy control 能不能扛过一万步？DeepSeek 的压缩注意力在 10M token 下还能撑住吗？GLM 的 Preserved Thinking 跨了一百轮之后会不会变得臃肿？没有人知道答案。

但这正是研究最有意思的阶段：问题已经不再是”能不能”，而是”能到多远”。下一次你看到一个新模型说它”会推理”了，别只看它对了几道题。看它的训练日志里有没有写到第几千步还稳不稳，看它的 RL 曲线是不是在某个节点突然断了。

本文基于 Microsoft AI 的 MAI-Thinking-1 技术报告、DeepSeek 的 DeepSeek-V4 报告、以及 Zhipu AI 的 GLM-5 报告，均发布于 2026 年。