Moonshot AI 的 Kimi Team 于 2026 年 3 月 15 日发布了一篇技术报告,挑战了 Transformer 架构中一个存在近十年、每个主流大模型都在使用的基础组件:残差连接(residual connection)。
标准 PreNorm Transformer
中,每一层的工作方式可以简化为:把当前层的输出加回到之前所有层的累积结果上。数学上就是
h_l = h_{l-1} + f_l(h_{l-1}),层层相加。这个设计最初由
ResNet
引入,目的是让深层网络能训练起来,效果好到后来十年一直被当作已解决问题跳过了。
所有前序层的输出是用固定的、等权重的方式累积的。随着网络越来越深,这个累积的隐状态幅度会持续增长,而每一层自身贡献的信号在这个不断膨胀的总和中占比越来越小。论文把这个现象叫 hidden-state dilution(隐状态稀释)。
用信号处理的语言说:这是一个 SNR 随深度单调递减的过程。第 3 层提取的某个关键特征,到第 40 层时已经被 37 层的累积输出淹没了,而且没有任何机制能让第 40 层选择性地放大第 3 层的信号。
论文团队进一步指出,这种固定累积在结构上等价于一种压缩的、无选择性的循环(compressed recurrence)。这恰恰是当年 RNN 被 Transformer 取代时暴露的核心缺陷:RNN 用固定方式逐步压缩序列信息,导致长距离信号丢失。Transformer 用 attention 解决了序列维度上的这个问题。但在深度维度(层与层之间),同样的固定压缩问题一直存在,只是一直被当作残差连接的附带代价而接受了。
论文的核心 idea 用一句话概括:既然 attention 解决了序列维度上的固定循环问题,就用同样的 attention 来解决深度维度上的固定累积问题。
具体做法是:每一层接收输入时,对所有前序层的输出做一次 softmax attention,让模型自己学会”对于当前这一层的计算,前面哪几层的表示最重要”。
$$\mathbf{h}_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot \mathbf{v}_i$$
实现上,每一层有一个可学习的 pseudo-query 向量 w_l,key
和 value 来自前面各层输出经 RMSNorm 后的表示。RMSNorm
这一步很关键,因为它防止幅度大的层输出在 attention
权重计算中自动占主导。所有 pseudo-query 向量初始化为零,这样训练开始时
attention 权重是均匀的,等价于标准残差连接,避免早期训练不稳定。
参数开销很小:每层只多一个 learned vector 和一次 normalization。推理延迟增加不到 2%,训练开销在使用 pipeline parallelism 时低于 4%。
全量 AttnRes(Full AttnRes)要求每一层关注前面所有层,在很深的网络中内存开销是 O(Ld)。论文提出了 Block Attention Residuals:把层分成若干个 block,跨层 attention 在 block 级别的摘要上进行。实验发现大约 8 个 block 就能捕获绝大部分收益,内存降到 O(Nd)。
在 Kimi Linear 架构(48B 总参数 / 3B 激活参数的 MoE 模型,1.4T tokens 训练)上的结果:
这篇论文的有趣之处在于类比结构非常清晰:十年前 attention 取代了序列维度上的固定循环,现在同一个工具被应用到深度维度上,解决的是同构的问题。残差连接因为太基础、太好用,属于典型的”因为它一直 work 所以从未被重新审视”的盲区。
目前的验证规模(48B MoE / 3B 激活)相对于 GPT-5 或 Claude 级别的模型仍然偏小。架构论文在中等规模上证明有效,到超大规模上是否保持优势,历史上有不少反例。这是这篇工作最大的待验证点。
来源:Moonshot AI / Kimi Team 技术报告,2026-03-15