模型架构推理与性能科研与技术前沿

Attention Residuals：用 Attention 修复 Transformer 深度维度上的信号稀释

Moonshot AI 的 Kimi Team 于 2026 年 3 月 15 日发布了一篇技术报告，挑战了 Transformer 架构中一个存在近十年、每个主流大模型都在使用的基础组件：残差连接（residual connection）。

问题：隐状态稀释

标准 PreNorm Transformer 中，每一层的工作方式可以简化为：把当前层的输出加回到之前所有层的累积结果上。数学上就是 h_l = h_{l-1} + f_l(h_{l-1})，层层相加。这个设计最初由 ResNet 引入，目的是让深层网络能训练起来，效果好到后来十年一直被当作已解决问题跳过了。

所有前序层的输出是用固定的、等权重的方式累积的。随着网络越来越深，这个累积的隐状态幅度会持续增长，而每一层自身贡献的信号在这个不断膨胀的总和中占比越来越小。论文把这个现象叫 hidden-state dilution（隐状态稀释）。

用信号处理的语言说：这是一个 SNR 随深度单调递减的过程。第 3 层提取的某个关键特征，到第 40 层时已经被 37 层的累积输出淹没了，而且没有任何机制能让第 40 层选择性地放大第 3 层的信号。

论文团队进一步指出，这种固定累积在结构上等价于一种压缩的、无选择性的循环（compressed recurrence）。这恰恰是当年 RNN 被 Transformer 取代时暴露的核心缺陷：RNN 用固定方式逐步压缩序列信息，导致长距离信号丢失。Transformer 用 attention 解决了序列维度上的这个问题。但在深度维度（层与层之间），同样的固定压缩问题一直存在，只是一直被当作残差连接的附带代价而接受了。

核心直觉

论文的核心 idea 用一句话概括：既然 attention 解决了序列维度上的固定循环问题，就用同样的 attention 来解决深度维度上的固定累积问题。

具体做法是：每一层接收输入时，对所有前序层的输出做一次 softmax attention，让模型自己学会”对于当前这一层的计算，前面哪几层的表示最重要”。

$$\mathbf{h}_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot \mathbf{v}_i$$

实现上，每一层有一个可学习的 pseudo-query 向量 w_l，key 和 value 来自前面各层输出经 RMSNorm 后的表示。RMSNorm 这一步很关键，因为它防止幅度大的层输出在 attention 权重计算中自动占主导。所有 pseudo-query 向量初始化为零，这样训练开始时 attention 权重是均匀的，等价于标准残差连接，避免早期训练不稳定。

参数开销很小：每层只多一个 learned vector 和一次 normalization。推理延迟增加不到 2%，训练开销在使用 pipeline parallelism 时低于 4%。

工程方案：Block Attention Residuals

全量 AttnRes（Full AttnRes）要求每一层关注前面所有层，在很深的网络中内存开销是 O(Ld)。论文提出了 Block Attention Residuals：把层分成若干个 block，跨层 attention 在 block 级别的摘要上进行。实验发现大约 8 个 block 就能捕获绝大部分收益，内存降到 O(Nd)。

效果

在 Kimi Linear 架构（48B 总参数 / 3B 激活参数的 MoE 模型，1.4T tokens 训练）上的结果：

Block AttnRes 达到了和 baseline 用 1.25 倍计算量训练相同的性能
五个不同规模的模型上都观测到一致的收益
部分 benchmark 提升：MMLU 73.5→74.6, GPQA-Diamond 36.9→44.4, HumanEval 59.1→62.2, C-Eval 79.6→82.5
训练诊断显示隐状态幅度更受控、梯度在各层之间分布更均匀

一点评论

这篇论文的有趣之处在于类比结构非常清晰：十年前 attention 取代了序列维度上的固定循环，现在同一个工具被应用到深度维度上，解决的是同构的问题。残差连接因为太基础、太好用，属于典型的”因为它一直 work 所以从未被重新审视”的盲区。

目前的验证规模（48B MoE / 3B 激活）相对于 GPT-5 或 Claude 级别的模型仍然偏小。架构论文在中等规模上证明有效，到超大规模上是否保持优势，历史上有不少反例。这是这篇工作最大的待验证点。

来源：Moonshot AI / Kimi Team 技术报告，2026-03-15