科研与技术前沿

传感器的「制程」到底是个什么东西：一份给摄影爱好者的分层理解

发布于 2026 年 4 月 22 日

摄影圈聊相机传感器时，很容易碰上一组让人越看越糊涂的词。有人说某颗传感器「还停留在 28nm」，有人说新机型「升级到 14nm」，旗舰机又开始讲「stacked」、「三层堆栈」、「partial stacked」。这些词看起来都在比大小，好像数字越小越先进，层数越多越强。但真正读下去会发现，拿手机 SoC 那套制程数字的叙事套在图像传感器上，很快就对不上：索尼 Alpha 1 的感光部分用的是 90nm 工艺，它的读出逻辑才是 40nm；三星在 ISCAS 2020 上公开的一颗堆栈传感器，像素层 65nm、逻辑层 14nm。Alpha 1 是 2021 年的旗舰，三星那颗也是那一代最新的堆栈 CIS，看起来怎么都不像「落后」。

问题出在一个隐含假设：大家默认一颗图像传感器是平面里的一块芯片，所以它应该只有一个制程数字。实际上它是两套系统叠在一起：一层负责收光，一层负责读数。这两层本来就在追不同的东西，也没必要共享一个「节点越小越好」的尺子。

读完下面的分层之后，规格表上的 BSI、stacked、三层 stacked、2-layer transistor pixel、partial stacked 这些词，应该能还原成每个词在描述哪一层、针对什么问题、代价在哪里，以及哪些部分厂商并没有真正公开。

第一层大图景：收光的那层，和读数的那层

不要先去看制程数字。先想象一颗传感器内部有两件完全不同的事在发生。

一件是收光。每个像素负责接住落下来的光子，把它转换成电信号，然后暂存一小会儿等着被取走。这是摄影师最关心的那部分：同样曝光下能接住多少光、高光会不会过曝、低光里噪点多不多，都发生在这里。

另一件是读数。几千万个像素在按下快门后，必须在十几毫秒之内全部被读取出来、转换成数字、打包送走。这是个跑数据的活，和 CPU、SoC 里那种高速电路更像。连拍能不能快、视频能不能高帧率、滚动快门扭不扭，都取决于这部分够不够快。

这两件事的物理规律完全不同。收光那层受光学限制：光波长是固定的，彩色滤镜、微透镜、像素之间的隔离，这些结构没法跟着工艺节点一起缩。像素一旦小到光波长附近，衍射和串扰就会变得明显。斯坦福 EE392B 讲义里写得很清楚，图像传感器的缩小规律不遵循逻辑芯片那套「等比例缩小」的规则；Semiconductor Engineering 的综述也记录了这个事实：前照式像素到 1.4μm 附近就遇到瓶颈，行业靠换结构（背照式 BSI、背面深沟槽隔离 DTI、新一代微透镜叠层）继续往下缩。

读数那层则是电路竞赛：工艺节点越先进，同一块面积里能塞下的电路越多、速度越快、功耗越低，直接对应更短的读出时间和更大的带宽。这里的「越小越先进」和手机 SoC 的语境是一致的。

所以一颗传感器其实是两套系统叠在一起：一层负责接住光子（硬物理问题），一层负责跑数据（电路密度问题）。它们本来就在追不同的东西，也没有必要共享一个「节点越小越好」的尺子。堆栈结构的意义就在这里：它让这两层不用再共用一片硅，可以各自选最适合自己的工艺。

摄影师在镜头前看到的每一项体验，都能定位到这两层之一：连拍和视频取决于读数层够不够快；高光能不能拉回来取决于收光层能存多少电子；低光通透不通透取决于收光层的像素之间有没有串扰；极端帧率够不够用，取决于两层之间有没有一条足够粗的数据通道，甚至需不需要额外再加一层缓存。理解了这个分工，后面的每个术语都是在回答「是哪一层、解决了什么」。

第二层：制程数字在传感器里到底代表什么

有了上面的分工，「制程」这个词就能拆成两个含义，分别对应两层。

在读数那层，制程的含义和大家熟悉的 SoC 一致：节点越小越先进。节点更小意味着同样面积里能塞更多通道、时序更快、功耗更低，直接对应读出时间更短、带宽更大。三星公开过一组很直接的对比数据：把上一代读数层从 28nm 升级到 14nm 之后，同一颗传感器整体功耗下降 29%，1200 万像素能跑到 120fps（ISCAS 2020 论文）。索尼 Alpha 1 的读数层用的是 40nm（ISSCC 2021 现场 PDF），这个节点才足以支撑它的高速接口和 5000 万像素的列并行 AD 转换。这层选什么节点，本质是选给相机多少读出带宽预算。

在收光那层，「制程」是完全另一种东西。它不追密度，它追的是感光质量。节点太新反而不一定合适：新节点的硅片往往含杂质更多、工艺热循环更复杂，这些对感光都是扣分项。厚一点的栅氧、更干净的硅、更低的热预算，反而能把暗电流和白点率压下去，也给光电二极管留出更深的势阱去存电子。这就是为什么 TSMC 的 CIS 代工页面到今天还在提供 65nm 和 40nm 两档专用平台、Tower Semiconductor 还在提供 110nm 和 65nm。这些节点在逻辑芯片界看起来「古老」，在像素端反而更合理。OmniVision 首代 BSI 用 110nm、OmniBSI-2 升到 65nm、索尼 Alpha 1 的像素层定在 90nm，都属于这一带。

真正推动像素性能继续往下走的，是几类专门的结构设计，不是节点数字。背照式（BSI）把光线改从硅片背面进入，让金属布线不再遮光；背面深沟槽隔离（backside DTI）在 1.12μm 像素上相比传统结构把串扰降低约 50%（IEEE 论文）；Cu-Cu hybrid bonding 让像素层和逻辑层可以用极细间距直接对位连接，取代以前通过 TSV 走边的方式。像素层这几年真正的进步写在 BSI、DTI、微透镜叠层、hybrid bonding 这些词里，不在节点数字上。

第三层：像素尺寸和制程的关系边界

顺着上面的结构自然能回答一个更具体的问题：像素做到多小，和工艺节点到底是什么关系？

公开数据里可以看到几组典型的像素 pitch：Alpha 1 的 4.16μm、三星那颗 65/14nm 堆栈 CIS 的 1.4μm，以及手机主摄逐步压到 1.12μm 甚至更小（IEEE 论文）。这三档 pitch 差了接近一个数量级，但它们背后的工艺节点其实接近：像素层都在 65–110nm 这一带。像素能做多小，主要靠前面提到的那几类结构创新一点点推进物理限制，工艺节点变小本身不是主要原因。

像素尺寸会真实影响三件事。第一是单像素可能收集的光子总量，这是信噪比的物理上限。同样曝光条件下，像素面积越大，满阱容量越高，动态范围的天花板也越高。第二是布线占比和遮光损失。像素越小，金属布线和读出晶体管占掉的相对面积越大，真正能被光电二极管利用的面积比例越低；BSI 把金属挪到背面后缓和了这一项，但不是完全消除。第三是像素间串扰。小像素之间光学和电学串扰都更严重，DTI 这类结构就是专门对付这一项。

制程节点在这三件事里是辅助角色。更先进的像素平台可以给出更窄的晶体管、更精细的光刻对位，因此在同样像素尺寸下可以腾出更多光电二极管面积、或者做出更细的 DTI。但节点本身不会凭空让像素更能收光。把像素缩到 1.4μm 和 1.12μm 这一档的功劳，更多要归给 BSI、DTI、hybrid bonding 和微透镜再设计。Semiconductor Engineering 的综述把这个判断讲得相当直白：CIS 的缩放规律由光电物理主导，节点数字只是手段之一。

对摄影读者，这里有一个更直觉的推论：同一代堆栈工艺下，大底相对小底的优势主要来自物理，每个像素能接住更多光子，和工艺节点关系不大。反过来也一样：一颗小底传感器即使配上更先进的逻辑层，低光表现的天花板仍然取决于像素层的物理。

第四层：把「堆栈」这组词拆开看

分层这个概念真正被做成芯片的，是从 2013 年索尼量产第一代堆栈 CIS 开始的。往后这十几年里，堆栈的花样越来越多，把它们放在同一条坐标轴上理解最省事。

两层 stacked：像素阵列在上，逻辑电路在下，两片晶圆用 Cu-Cu hybrid bonding 对接。这是今天绝大多数中高端相机传感器采用的结构。索尼 Alpha 1 也是这种做法：90nm 像素晶圆加 40nm 逻辑晶圆，中间 Cu-Cu 连接（ISSCC 2021 资料）。相对早期的非堆栈结构，它的核心收益很直接：像素层不再需要挤出面积给逻辑电路，逻辑层可以独立用先进节点做得更快。

三层 stacked（pixel + DRAM + logic）：索尼 2017 年在 ISSCC 和 IEDM 上公开了这个结构，并做成带 DRAM 的 3-Layer Stacked CIS 产品（索尼官方新闻、日本半导体历史博物馆归档，后者保留了 ISSCC 2017 4.6 + IEDM 2017 3.2 的原始论文引用）。它的做法是在像素和逻辑两层之间再插一层专门的 DRAM 晶圆。要解决的问题也很具体：超高速连拍或超慢动作视频会产生巨大的瞬时数据量，读出通道带宽不够，于是先把一整帧临时倒进片上 DRAM，再以较慢的速度送出。在 1/2.3 英寸 2000 万像素规格上，这种结构带来的是超慢动作和抑制滚动快门的能力。三层 stacked 的重点在这里：多加的那一层是一种不同类型的器件（DRAM），它的价值来自功能分工，和制程节点的先进程度是两件事。

2-Layer Transistor Pixel：这是索尼 2021 年底公开的一种像素层内部再分层结构（Sony Semiconductor 技术目录）。原始的堆栈结构把像素层和逻辑层分开，但像素层内部，光电二极管和像素晶体管仍然挤在同一块衬底上。这一代结构把这两部分再拆到两片衬底，光电二极管单独一层、像素晶体管单独一层，上下用堆栈连起来。根据索尼欧洲发布稿，饱和电荷量相对传统结构大约翻倍，动态范围随之加宽；像素晶体管在新层里可以做得更大，低光噪声也能改善。这个结构的重点是让「存电子」的能力不再被「像素晶体管占掉的面积」限制，同样 pitch 下的像素能存更多电子。它仍然是在回答「像素要怎么继续缩小」这个问题，回答方式是加一层，不是换节点。

partial stacked：这是 2024 年随尼康 Z6 III 进入公众视线的一个词，Z8 / Z9 是完整 stacked，Z6 III 被描述成「部分堆栈」。这个词目前缺少业界统一定义。根据 Digital Camera World 的报道，尼康只说「允许比 Z6 II 明显更快的读出速度，但不如 Z8/Z9 完全堆栈」，没有公开具体芯片结构。外部媒体给了两个侧面推断：Luminous Landscape 给出 Z6 III 的扫描速度约 1/60 秒、完全 stacked 的 Z8 可到 1/250 秒；Photography Life 根据闪光同步速度反推 Z6 III 的整帧读出约在 12.5–16 毫秒附近，而 Z6 II 大约 50 毫秒。综合起来较合理的推断是：partial stacked 指把高速读出电路只放在像素阵列的部分边缘区域（比如上下两条），而非沿全边一圈都堆栈起来。这只是推断，没有尼康的正式确认。同时要提醒一下，「partial stacked」在不同厂商、不同媒体口中可能指不同的具体实现，阅读规格时对这个词要保持警觉。

把这四个词放在同一个坐标里看，思路很清楚：堆栈就是把一颗传感器从物理意义上拆成若干层，每层独立选工艺、独立优化。两层 stacked 是拆出「收光」和「读数」；三层 stacked 再单独给数据缓冲拆出一层；2-layer transistor pixel 是把「收光」那层内部再拆一次；partial stacked 是拆得不完全，只在需要加速的区域做堆栈。层数越多不代表越强，每种拆法都对应一个具体的产品目标和折中。

第四层补充：手机主摄为什么做 Quad Bayer 和 N×N 像素合并

堆栈走的是”把一颗传感器垂直拆成多层”这条路。手机主摄在过去几年走出了另一条完全互补的路线：横向上把 2×2、3×3 甚至 4×4 的相邻像素捆绑成一组，共用同一个彩色滤镜。这就是三星叫 Tetracell / Tetrapixel、索尼叫 Quad Bayer Coding、媒体口中”四合一像素”、学术论文统一叫 Quad Bayer 的那套东西。它和前文讨论的堆栈、2-Layer Transistor Pixel 不是替代关系，而是在同一颗手机传感器上经常同时存在。

要理解它为什么存在，先回到第三层那条取舍：pitch 大，低光好、分辨率低；pitch 小，分辨率高、低光差。手机底的物理尺寸卡在 1/2 英寸到 1 英寸之间，既想要 5000 万像素的白天解析力（裁切变焦、拍文字、拍社交内容），又想要 1.4μm 等效大像素的夜景性能。一块底做不到两全，于是厂商选了一个妥协方案：物理上做 5000 万个 1.0μm 的小像素，但让 2×2 的相邻四个像素共享同一个彩色滤镜。光线充足时按 5000 万像素输出，暗光下把相邻四个同色像素的电荷在读出前合并，等效成 1250 万像素、2.0μm pitch 的大像素。

这里关键是”读出前合并”，不是”拍完之后软件平均”。一颗 CMOS 的读出链上叠着两类性质不同的噪声：光子散粒噪声（光本身的统计性质决定，与信号强度的平方根成正比）和读出噪声（ADC 和放大链每次工作都产生一份，与信号大小无关）。软件缩图发生在 ADC 之后——4 个像素已经各自走完一次读出、各自带着一份读出噪声变成了数字，事后平均只能让噪声标准差按 √4 下降。硬件 binning 发生在 ADC 之前——4 个像素的电荷在浮动扩散节点上物理相加，合并之后只做一次 ADC 读出，读出噪声只产生 1 份，不是 4 份独立噪声相加。做一道简单的算术：相对软件平均，硬件 binning 把读出噪声的方差再压 4 倍，标准差再压 2 倍，大约相当于多出半档动态范围。

这半档的增益只在暗光下生效。光线充足时信号远大于读出噪声，散粒噪声主导，软件缩图和硬件 binning 几乎等价；只有在暗光（信号小到读出噪声不可忽略）的区间，硬件合并才有意义。所以它突破的不是散粒噪声——那是光子统计决定的物理极限，谁也改不了——它突破的是电子链路自身的读出噪声，靠”让 4 个像素共用一次 ADC 的代价”这个工程手段来压低。

这一点在独立来源里也能得到印证。darktable 社区关于 Quad Bayer 解码的讨论中（discuss.pixls.us）提到：

This analog binning provides better SNR and about half a stop of additional dynamic range when small sensors struggle in lower light conditions.

这里的 “additional” 是相对软件平均而言的额外收益，不是相对单像素。

学术界也把这个动机作为出发点。一篇 2023 年的 Quad Bayer 去马赛克论文（arXiv:2303.13571）直接写道：

Pixel binning based Quad sensors have emerged as a promising solution to overcome the hardware limitations of compact cameras in low-light imaging. However, binning results in lower spatial resolution and non-Bayer CFA artifacts.

两句话的后半段同样关键。Quad Bayer 不是免费午餐，它的代价主要在两个地方。一是色彩解析能力下降。四个共享同一滤镜的像素只贡献一份颜色信息，原生的色彩分辨率实际只相当于标称像素数的 1/4。白天输出 5000 万像素模式时，ISP 要靠 remosaicing 算法把四合一排布重排成标准 Bayer，这是一步有损的猜测，遇到高频细节和斜边时容易出伪色和失真。学术界这几年围绕 Quad Bayer 的 joint demosaicing + denoising 一直在出新论文（AAAI 2024 DRNet 论文是其中一例），说明这个问题到现在都没被完全解决。索尼把 remosaic 算法直接做进了传感器芯片里（Sony Semiconductor Quad Bayer Coding 页面），就是在承认”软件 remosaic 不够稳定”之后的工程选择。

二是合并之后的等效性能仍然低于原生大像素。4 个 1.0μm 物理像素合成一个 2.0μm 等效像素，低光 SNR 确实接近原生 2.0μm 像素的水平，但几个维度会略次：像素之间的 DTI、金属布线占掉的面积比例在 4 个小像素里更高，真正用于感光的面积比小于一个原生大像素；合并之后的满阱容量是 4 个小像素之和，但单像素的势阱深度没变，强光下每个小像素先饱和，整体动态范围达不到原生 2.0μm 的水平。

所以可以这样看待 Quad Bayer：它不挑战收光那层的物理极限，每个 1.0μm 小像素该受的衍射、串扰、布线损失一样也没少。它做的事情是承认小像素在低光下就是做不到大像素的性能，然后提供一个硬件层面的切换开关——让同一块硅运行时选择”按小像素读”或”按合并大像素读”，不再要求一颗传感器只能对应一个 pitch。

这解释了为什么手机主摄对它如此依赖，相机传感器几乎不用。手机底受限，必须用一颗摄像头同时覆盖白天高分辨率和晚上低光两档工作点，Quad Bayer 在可接受的色彩解析损失下提供了最划算的交易。相机底大得多，Alpha 1 的 4.16μm 已经是原生大像素的级别，再额外做 Quad Bayer 的边际收益很低，反而会损失色彩分辨率，所以相机保留了传统 Bayer 排布。两种产品在像素层走的路径分化也从这里开始：手机往”极小像素 + N×N 合并 + 复杂 ISP 算法”方向走，相机往”大像素 + 堆栈 + 2-Layer Transistor Pixel + 高速读出”方向走。

放回全文的分层坐标：堆栈是在垂直方向把传感器拆成多层，每层各自用最合适的工艺；Quad Bayer 是在横向方向把相邻像素绑定成可切换的组，让同一片硅在运行时表现出两种 pitch。两条路线针对的都是”一个数字打不了天下”这个根本约束，只是维度不同，高端手机传感器（索尼 IMX989、三星 HP3 等）两种都上。

第五层：读规格表时该看什么，容易被带偏什么

回到最开始那个起点。如果摄影读者之后再碰到「这颗传感器是 28nm / 14nm」、「这是 stacked / partial stacked」这样的话术，可以用下面这套判断方式过一遍。

一个节点数字在说哪一层。如果不加说明，多半是指逻辑层（读出电路）。像素层的节点通常更「老」，因为它追的不是密度，而是光学质量和低暗电流。同一代产品里，只看逻辑层节点能得出的信息很有限：它能告诉你这颗传感器的读出带宽潜力、功耗水平，但不能告诉你像素层画质。

「stacked」是否发生。这是今天中高端相机能否获得快速电子快门、高帧率视频和低滚动快门的分水岭。能否做到完全电子快门日常使用，是 stacked 和非 stacked 传感器之间最直接的产品差距。但 stacked 并不自动意味着像素画质更好。两层 stacked 释放给像素层的是面积和节点自由度，像素层用这些自由度做了什么，要看具体实现。

额外多出来的那层在解决什么。看到三层 stacked 或 2-layer transistor pixel 这种说法，不要只数层数，要问多出的那层承担什么功能：是数据缓冲（DRAM），还是像素内部结构重排（把晶体管挪层）。前者决定高速场景的带宽上限，后者影响饱和电荷量和动态范围。

「partial stacked」是个需要小心的词。它目前没有被行业统一定义，不同厂商口径不同。遇到这个词时，看厂商公开的具体数字（读出时间、闪光同步速度、扫描速度）比看词本身有用得多。佳能在欧洲官网上的科普页就是一个典型例子：它会承认自家用 stacked 或 BSI 结构，但通常不公开具体节点或具体堆栈层数，所以遇到描述性的词，要留意哪些部分是公开事实、哪些是厂商留白。

最后一点，一颗传感器的画质和速度上限是系统性决定的：像素层的物理结构、逻辑层的读出架构、两层之间的带宽通道，以及这三者和产品定位的匹配。28nm、14nm、90nm 这些数字各自只是系统里某一层的一个选择。理解了这层关系，规格表上看起来谁都能说大的一串数字，就还原成了一张可以自己读懂的分层图。

关于事实边界的说明

本文中已确认的事实部分包括：索尼 Alpha 1 使用的 90nm 像素层 + 40nm 逻辑层、Cu-Cu 连接、4.16μm pitch、50.1Mp（ISSCC 2021 论文 7.6 现场 PDF）；三星 65/14nm 堆栈 CIS 相对 65/28nm 功耗降低 29%、1.4μm pitch、2PD、120fps（IEEE ISCAS 2020 abstract）；OmniVision OmniBSI-2 公开采用 65nm design rule（OmniVision 官方技术页）；OmniVision 早期 BSI 使用 110nm CMOS（IISW 2009 论文）；TSMC 与 Tower 公开的 CIS 代工平台节点分布（TSMC / Tower）；索尼 2-Layer Transistor Pixel 饱和电荷量约翻倍（索尼欧洲发布稿、技术页面）；索尼 2017 年 3-Layer Stacked CIS with DRAM 相关论文引用链（日本半导体史博物馆归档、索尼官方新闻）；backside DTI 对 1.12μm 像素串扰约 50% 的抑制（R Discovery 收录论文摘要）。

合理推断部分包括：partial stacked 对应「仅在像素阵列部分边缘加入堆栈读出电路」这一实现方式，基于 Z6 III 读出时间约 12.5–16ms 与 Z8 / Z9 完整堆栈 4ms 档的差距反推，来源为 Photography Life 与 Luminous Landscape。

行业未公开部分包括：尼康 Z6 III 的具体像素层 / 逻辑层节点、具体堆栈几何结构；佳能多数自家传感器的工艺节点；索尼 Alpha 1 以外大多数全画幅相机传感器的节点组合，这些厂商在公开材料中普遍只确认架构方向（stacked / BSI）而不公布节点。