摄影圈聊相机传感器时,很容易碰上一组让人越看越糊涂的词。有人说某颗传感器「还停留在 28nm」,有人说新机型「升级到 14nm」,旗舰机又开始讲「stacked」、「三层堆栈」、「partial stacked」。这些词看起来都在比大小,好像数字越小越先进,层数越多越强。但真正读下去会发现,拿手机 SoC 那套制程数字的叙事套在图像传感器上,很快就对不上:索尼 Alpha 1 的感光部分用的是 90nm 工艺,它的读出逻辑才是 40nm;三星在 ISCAS 2020 上公开的一颗堆栈传感器,像素层 65nm、逻辑层 14nm。Alpha 1 是 2021 年的旗舰,三星那颗也是那一代最新的堆栈 CIS,看起来怎么都不像「落后」。
问题出在一个隐含假设:大家默认一颗图像传感器是平面里的一块芯片,所以它应该只有一个制程数字。实际上它是两套系统叠在一起:一层负责收光,一层负责读数。这两层本来就在追不同的东西,也没必要共享一个「节点越小越好」的尺子。
读完下面的分层之后,规格表上的 BSI、stacked、三层 stacked、2-layer transistor pixel、partial stacked 这些词,应该能还原成每个词在描述哪一层、针对什么问题、代价在哪里,以及哪些部分厂商并没有真正公开。
不要先去看制程数字。先想象一颗传感器内部有两件完全不同的事在发生。
一件是收光。每个像素负责接住落下来的光子,把它转换成电信号,然后暂存一小会儿等着被取走。这是摄影师最关心的那部分:同样曝光下能接住多少光、高光会不会过曝、低光里噪点多不多,都发生在这里。
另一件是读数。几千万个像素在按下快门后,必须在十几毫秒之内全部被读取出来、转换成数字、打包送走。这是个跑数据的活,和 CPU、SoC 里那种高速电路更像。连拍能不能快、视频能不能高帧率、滚动快门扭不扭,都取决于这部分够不够快。
这两件事的物理规律完全不同。收光那层受光学限制:光波长是固定的,彩色滤镜、微透镜、像素之间的隔离,这些结构没法跟着工艺节点一起缩。像素一旦小到光波长附近,衍射和串扰就会变得明显。斯坦福 EE392B 讲义里写得很清楚,图像传感器的缩小规律不遵循逻辑芯片那套「等比例缩小」的规则;Semiconductor Engineering 的综述也记录了这个事实:前照式像素到 1.4μm 附近就遇到瓶颈,行业靠换结构(背照式 BSI、背面深沟槽隔离 DTI、新一代微透镜叠层)继续往下缩。
读数那层则是电路竞赛:工艺节点越先进,同一块面积里能塞下的电路越多、速度越快、功耗越低,直接对应更短的读出时间和更大的带宽。这里的「越小越先进」和手机 SoC 的语境是一致的。
所以一颗传感器其实是两套系统叠在一起:一层负责接住光子(硬物理问题),一层负责跑数据(电路密度问题)。它们本来就在追不同的东西,也没有必要共享一个「节点越小越好」的尺子。堆栈结构的意义就在这里:它让这两层不用再共用一片硅,可以各自选最适合自己的工艺。
摄影师在镜头前看到的每一项体验,都能定位到这两层之一:连拍和视频取决于读数层够不够快;高光能不能拉回来取决于收光层能存多少电子;低光通透不通透取决于收光层的像素之间有没有串扰;极端帧率够不够用,取决于两层之间有没有一条足够粗的数据通道,甚至需不需要额外再加一层缓存。理解了这个分工,后面的每个术语都是在回答「是哪一层、解决了什么」。
有了上面的分工,「制程」这个词就能拆成两个含义,分别对应两层。
在读数那层,制程的含义和大家熟悉的 SoC 一致:节点越小越先进。节点更小意味着同样面积里能塞更多通道、时序更快、功耗更低,直接对应读出时间更短、带宽更大。三星公开过一组很直接的对比数据:把上一代读数层从 28nm 升级到 14nm 之后,同一颗传感器整体功耗下降 29%,1200 万像素能跑到 120fps(ISCAS 2020 论文)。索尼 Alpha 1 的读数层用的是 40nm(ISSCC 2021 现场 PDF),这个节点才足以支撑它的高速接口和 5000 万像素的列并行 AD 转换。这层选什么节点,本质是选给相机多少读出带宽预算。
在收光那层,「制程」是完全另一种东西。它不追密度,它追的是感光质量。节点太新反而不一定合适:新节点的硅片往往含杂质更多、工艺热循环更复杂,这些对感光都是扣分项。厚一点的栅氧、更干净的硅、更低的热预算,反而能把暗电流和白点率压下去,也给光电二极管留出更深的势阱去存电子。这就是为什么 TSMC 的 CIS 代工页面到今天还在提供 65nm 和 40nm 两档专用平台、Tower Semiconductor 还在提供 110nm 和 65nm。这些节点在逻辑芯片界看起来「古老」,在像素端反而更合理。OmniVision 首代 BSI 用 110nm、OmniBSI-2 升到 65nm、索尼 Alpha 1 的像素层定在 90nm,都属于这一带。
真正推动像素性能继续往下走的,是几类专门的结构设计,不是节点数字。背照式(BSI)把光线改从硅片背面进入,让金属布线不再遮光;背面深沟槽隔离(backside DTI)在 1.12μm 像素上相比传统结构把串扰降低约 50%(IEEE 论文);Cu-Cu hybrid bonding 让像素层和逻辑层可以用极细间距直接对位连接,取代以前通过 TSV 走边的方式。像素层这几年真正的进步写在 BSI、DTI、微透镜叠层、hybrid bonding 这些词里,不在节点数字上。
顺着上面的结构自然能回答一个更具体的问题:像素做到多小,和工艺节点到底是什么关系?
公开数据里可以看到几组典型的像素 pitch:Alpha 1 的 4.16μm、三星那颗 65/14nm 堆栈 CIS 的 1.4μm,以及手机主摄逐步压到 1.12μm 甚至更小(IEEE 论文)。这三档 pitch 差了接近一个数量级,但它们背后的工艺节点其实接近:像素层都在 65–110nm 这一带。像素能做多小,主要靠前面提到的那几类结构创新一点点推进物理限制,工艺节点变小本身不是主要原因。
像素尺寸会真实影响三件事。第一是单像素可能收集的光子总量,这是信噪比的物理上限。同样曝光条件下,像素面积越大,满阱容量越高,动态范围的天花板也越高。第二是布线占比和遮光损失。像素越小,金属布线和读出晶体管占掉的相对面积越大,真正能被光电二极管利用的面积比例越低;BSI 把金属挪到背面后缓和了这一项,但不是完全消除。第三是像素间串扰。小像素之间光学和电学串扰都更严重,DTI 这类结构就是专门对付这一项。
制程节点在这三件事里是辅助角色。更先进的像素平台可以给出更窄的晶体管、更精细的光刻对位,因此在同样像素尺寸下可以腾出更多光电二极管面积、或者做出更细的 DTI。但节点本身不会凭空让像素更能收光。把像素缩到 1.4μm 和 1.12μm 这一档的功劳,更多要归给 BSI、DTI、hybrid bonding 和微透镜再设计。Semiconductor Engineering 的综述把这个判断讲得相当直白:CIS 的缩放规律由光电物理主导,节点数字只是手段之一。
对摄影读者,这里有一个更直觉的推论:同一代堆栈工艺下,大底相对小底的优势主要来自物理,每个像素能接住更多光子,和工艺节点关系不大。反过来也一样:一颗小底传感器即使配上更先进的逻辑层,低光表现的天花板仍然取决于像素层的物理。
分层这个概念真正被做成芯片的,是从 2013 年索尼量产第一代堆栈 CIS 开始的。往后这十几年里,堆栈的花样越来越多,把它们放在同一条坐标轴上理解最省事。
两层 stacked:像素阵列在上,逻辑电路在下,两片晶圆用 Cu-Cu hybrid bonding 对接。这是今天绝大多数中高端相机传感器采用的结构。索尼 Alpha 1 也是这种做法:90nm 像素晶圆加 40nm 逻辑晶圆,中间 Cu-Cu 连接(ISSCC 2021 资料)。相对早期的非堆栈结构,它的核心收益很直接:像素层不再需要挤出面积给逻辑电路,逻辑层可以独立用先进节点做得更快。
三层 stacked(pixel + DRAM + logic):索尼 2017 年在 ISSCC 和 IEDM 上公开了这个结构,并做成带 DRAM 的 3-Layer Stacked CIS 产品(索尼官方新闻、日本半导体历史博物馆归档,后者保留了 ISSCC 2017 4.6 + IEDM 2017 3.2 的原始论文引用)。它的做法是在像素和逻辑两层之间再插一层专门的 DRAM 晶圆。要解决的问题也很具体:超高速连拍或超慢动作视频会产生巨大的瞬时数据量,读出通道带宽不够,于是先把一整帧临时倒进片上 DRAM,再以较慢的速度送出。在 1/2.3 英寸 2000 万像素规格上,这种结构带来的是超慢动作和抑制滚动快门的能力。三层 stacked 的重点在这里:多加的那一层是一种不同类型的器件(DRAM),它的价值来自功能分工,和制程节点的先进程度是两件事。
2-Layer Transistor Pixel:这是索尼 2021 年底公开的一种像素层内部再分层结构(Sony Semiconductor 技术目录)。原始的堆栈结构把像素层和逻辑层分开,但像素层内部,光电二极管和像素晶体管仍然挤在同一块衬底上。这一代结构把这两部分再拆到两片衬底,光电二极管单独一层、像素晶体管单独一层,上下用堆栈连起来。根据索尼欧洲发布稿,饱和电荷量相对传统结构大约翻倍,动态范围随之加宽;像素晶体管在新层里可以做得更大,低光噪声也能改善。这个结构的重点是让「存电子」的能力不再被「像素晶体管占掉的面积」限制,同样 pitch 下的像素能存更多电子。它仍然是在回答「像素要怎么继续缩小」这个问题,回答方式是加一层,不是换节点。
partial stacked:这是 2024 年随尼康 Z6 III 进入公众视线的一个词,Z8 / Z9 是完整 stacked,Z6 III 被描述成「部分堆栈」。这个词目前缺少业界统一定义。根据 Digital Camera World 的报道,尼康只说「允许比 Z6 II 明显更快的读出速度,但不如 Z8/Z9 完全堆栈」,没有公开具体芯片结构。外部媒体给了两个侧面推断:Luminous Landscape 给出 Z6 III 的扫描速度约 1/60 秒、完全 stacked 的 Z8 可到 1/250 秒;Photography Life 根据闪光同步速度反推 Z6 III 的整帧读出约在 12.5–16 毫秒附近,而 Z6 II 大约 50 毫秒。综合起来较合理的推断是:partial stacked 指把高速读出电路只放在像素阵列的部分边缘区域(比如上下两条),而非沿全边一圈都堆栈起来。这只是推断,没有尼康的正式确认。同时要提醒一下,「partial stacked」在不同厂商、不同媒体口中可能指不同的具体实现,阅读规格时对这个词要保持警觉。
把这四个词放在同一个坐标里看,思路很清楚:堆栈就是把一颗传感器从物理意义上拆成若干层,每层独立选工艺、独立优化。两层 stacked 是拆出「收光」和「读数」;三层 stacked 再单独给数据缓冲拆出一层;2-layer transistor pixel 是把「收光」那层内部再拆一次;partial stacked 是拆得不完全,只在需要加速的区域做堆栈。层数越多不代表越强,每种拆法都对应一个具体的产品目标和折中。
堆栈走的是”把一颗传感器垂直拆成多层”这条路。手机主摄在过去几年走出了另一条完全互补的路线:横向上把 2×2、3×3 甚至 4×4 的相邻像素捆绑成一组,共用同一个彩色滤镜。这就是三星叫 Tetracell / Tetrapixel、索尼叫 Quad Bayer Coding、媒体口中”四合一像素”、学术论文统一叫 Quad Bayer 的那套东西。它和前文讨论的堆栈、2-Layer Transistor Pixel 不是替代关系,而是在同一颗手机传感器上经常同时存在。
要理解它为什么存在,先回到第三层那条取舍:pitch 大,低光好、分辨率低;pitch 小,分辨率高、低光差。手机底的物理尺寸卡在 1/2 英寸到 1 英寸之间,既想要 5000 万像素的白天解析力(裁切变焦、拍文字、拍社交内容),又想要 1.4μm 等效大像素的夜景性能。一块底做不到两全,于是厂商选了一个妥协方案:物理上做 5000 万个 1.0μm 的小像素,但让 2×2 的相邻四个像素共享同一个彩色滤镜。光线充足时按 5000 万像素输出,暗光下把相邻四个同色像素的电荷在读出前合并,等效成 1250 万像素、2.0μm pitch 的大像素。
这里关键是”读出前合并”,不是”拍完之后软件平均”。一颗 CMOS 的读出链上叠着两类性质不同的噪声:光子散粒噪声(光本身的统计性质决定,与信号强度的平方根成正比)和读出噪声(ADC 和放大链每次工作都产生一份,与信号大小无关)。软件缩图发生在 ADC 之后——4 个像素已经各自走完一次读出、各自带着一份读出噪声变成了数字,事后平均只能让噪声标准差按 √4 下降。硬件 binning 发生在 ADC 之前——4 个像素的电荷在浮动扩散节点上物理相加,合并之后只做一次 ADC 读出,读出噪声只产生 1 份,不是 4 份独立噪声相加。做一道简单的算术:相对软件平均,硬件 binning 把读出噪声的方差再压 4 倍,标准差再压 2 倍,大约相当于多出半档动态范围。
这半档的增益只在暗光下生效。光线充足时信号远大于读出噪声,散粒噪声主导,软件缩图和硬件 binning 几乎等价;只有在暗光(信号小到读出噪声不可忽略)的区间,硬件合并才有意义。所以它突破的不是散粒噪声——那是光子统计决定的物理极限,谁也改不了——它突破的是电子链路自身的读出噪声,靠”让 4 个像素共用一次 ADC 的代价”这个工程手段来压低。
这一点在独立来源里也能得到印证。darktable 社区关于 Quad Bayer 解码的讨论中(discuss.pixls.us)提到:
This analog binning provides better SNR and about half a stop of additional dynamic range when small sensors struggle in lower light conditions.
这里的 “additional” 是相对软件平均而言的额外收益,不是相对单像素。
学术界也把这个动机作为出发点。一篇 2023 年的 Quad Bayer 去马赛克论文(arXiv:2303.13571)直接写道:
Pixel binning based Quad sensors have emerged as a promising solution to overcome the hardware limitations of compact cameras in low-light imaging. However, binning results in lower spatial resolution and non-Bayer CFA artifacts.
两句话的后半段同样关键。Quad Bayer 不是免费午餐,它的代价主要在两个地方。一是色彩解析能力下降。四个共享同一滤镜的像素只贡献一份颜色信息,原生的色彩分辨率实际只相当于标称像素数的 1/4。白天输出 5000 万像素模式时,ISP 要靠 remosaicing 算法把四合一排布重排成标准 Bayer,这是一步有损的猜测,遇到高频细节和斜边时容易出伪色和失真。学术界这几年围绕 Quad Bayer 的 joint demosaicing + denoising 一直在出新论文(AAAI 2024 DRNet 论文 是其中一例),说明这个问题到现在都没被完全解决。索尼把 remosaic 算法直接做进了传感器芯片里(Sony Semiconductor Quad Bayer Coding 页面),就是在承认”软件 remosaic 不够稳定”之后的工程选择。
二是合并之后的等效性能仍然低于原生大像素。4 个 1.0μm 物理像素合成一个 2.0μm 等效像素,低光 SNR 确实接近原生 2.0μm 像素的水平,但几个维度会略次:像素之间的 DTI、金属布线占掉的面积比例在 4 个小像素里更高,真正用于感光的面积比小于一个原生大像素;合并之后的满阱容量是 4 个小像素之和,但单像素的势阱深度没变,强光下每个小像素先饱和,整体动态范围达不到原生 2.0μm 的水平。
所以可以这样看待 Quad Bayer:它不挑战收光那层的物理极限,每个 1.0μm 小像素该受的衍射、串扰、布线损失一样也没少。它做的事情是承认小像素在低光下就是做不到大像素的性能,然后提供一个硬件层面的切换开关——让同一块硅运行时选择”按小像素读”或”按合并大像素读”,不再要求一颗传感器只能对应一个 pitch。
这解释了为什么手机主摄对它如此依赖,相机传感器几乎不用。手机底受限,必须用一颗摄像头同时覆盖白天高分辨率和晚上低光两档工作点,Quad Bayer 在可接受的色彩解析损失下提供了最划算的交易。相机底大得多,Alpha 1 的 4.16μm 已经是原生大像素的级别,再额外做 Quad Bayer 的边际收益很低,反而会损失色彩分辨率,所以相机保留了传统 Bayer 排布。两种产品在像素层走的路径分化也从这里开始:手机往”极小像素 + N×N 合并 + 复杂 ISP 算法”方向走,相机往”大像素 + 堆栈 + 2-Layer Transistor Pixel + 高速读出”方向走。
放回全文的分层坐标:堆栈是在垂直方向把传感器拆成多层,每层各自用最合适的工艺;Quad Bayer 是在横向方向把相邻像素绑定成可切换的组,让同一片硅在运行时表现出两种 pitch。两条路线针对的都是”一个数字打不了天下”这个根本约束,只是维度不同,高端手机传感器(索尼 IMX989、三星 HP3 等)两种都上。
回到最开始那个起点。如果摄影读者之后再碰到「这颗传感器是 28nm / 14nm」、「这是 stacked / partial stacked」这样的话术,可以用下面这套判断方式过一遍。
一个节点数字在说哪一层。如果不加说明,多半是指逻辑层(读出电路)。像素层的节点通常更「老」,因为它追的不是密度,而是光学质量和低暗电流。同一代产品里,只看逻辑层节点能得出的信息很有限:它能告诉你这颗传感器的读出带宽潜力、功耗水平,但不能告诉你像素层画质。
「stacked」是否发生。这是今天中高端相机能否获得快速电子快门、高帧率视频和低滚动快门的分水岭。能否做到完全电子快门日常使用,是 stacked 和非 stacked 传感器之间最直接的产品差距。但 stacked 并不自动意味着像素画质更好。两层 stacked 释放给像素层的是面积和节点自由度,像素层用这些自由度做了什么,要看具体实现。
额外多出来的那层在解决什么。看到三层 stacked 或 2-layer transistor pixel 这种说法,不要只数层数,要问多出的那层承担什么功能:是数据缓冲(DRAM),还是像素内部结构重排(把晶体管挪层)。前者决定高速场景的带宽上限,后者影响饱和电荷量和动态范围。
「partial stacked」是个需要小心的词。它目前没有被行业统一定义,不同厂商口径不同。遇到这个词时,看厂商公开的具体数字(读出时间、闪光同步速度、扫描速度)比看词本身有用得多。佳能在欧洲官网上的科普页就是一个典型例子:它会承认自家用 stacked 或 BSI 结构,但通常不公开具体节点或具体堆栈层数,所以遇到描述性的词,要留意哪些部分是公开事实、哪些是厂商留白。
最后一点,一颗传感器的画质和速度上限是系统性决定的:像素层的物理结构、逻辑层的读出架构、两层之间的带宽通道,以及这三者和产品定位的匹配。28nm、14nm、90nm 这些数字各自只是系统里某一层的一个选择。理解了这层关系,规格表上看起来谁都能说大的一串数字,就还原成了一张可以自己读懂的分层图。
关于事实边界的说明
本文中已确认的事实部分包括:索尼 Alpha 1 使用的 90nm 像素层 + 40nm 逻辑层、Cu-Cu 连接、4.16μm pitch、50.1Mp(ISSCC 2021 论文 7.6 现场 PDF);三星 65/14nm 堆栈 CIS 相对 65/28nm 功耗降低 29%、1.4μm pitch、2PD、120fps(IEEE ISCAS 2020 abstract);OmniVision OmniBSI-2 公开采用 65nm design rule(OmniVision 官方技术页);OmniVision 早期 BSI 使用 110nm CMOS(IISW 2009 论文);TSMC 与 Tower 公开的 CIS 代工平台节点分布(TSMC / Tower);索尼 2-Layer Transistor Pixel 饱和电荷量约翻倍(索尼欧洲发布稿、技术页面);索尼 2017 年 3-Layer Stacked CIS with DRAM 相关论文引用链(日本半导体史博物馆归档、索尼官方新闻);backside DTI 对 1.12μm 像素串扰约 50% 的抑制(R Discovery 收录论文摘要)。
合理推断部分包括:partial stacked 对应「仅在像素阵列部分边缘加入堆栈读出电路」这一实现方式,基于 Z6 III 读出时间约 12.5–16ms 与 Z8 / Z9 完整堆栈 4ms 档的差距反推,来源为 Photography Life 与 Luminous Landscape。
行业未公开部分包括:尼康 Z6 III 的具体像素层 / 逻辑层节点、具体堆栈几何结构;佳能多数自家传感器的工艺节点;索尼 Alpha 1 以外大多数全画幅相机传感器的节点组合,这些厂商在公开材料中普遍只确认架构方向(stacked / BSI)而不公布节点。