安全与供应链

当 AI 学会伪造一切：图像生成对金融安全的冲击

发布于 2026 年 4 月 22 日

你在银行 app 上做过人脸验证吗？对着摄像头眨眨眼、点点头、张张嘴，系统确认是你本人，然后放行。这个流程背后有一个核心假设：摄像头前面的那张脸是真实的，而且属于手机的主人。

这个假设正在被打破。

2024 年 2 月，安全公司 Group-IB 记录了一种名为 GoldPickaxe 的木马。它伪装成泰国政府的”数字养老金”app，引导用户录一段面部视频。录制过程中会提示你做各种动作：眨眼、微笑、转头、点头、张嘴。看起来像在做身份验证，实际上是在采集你的面部数据。攻击者拿到这段视频后，用 AI 换脸工具生成一段新的 deepfake 视频，在自己的手机上打开银行 app，对着活体检测环节播放这段视频。银行系统通过了验证。一名受害者因此损失了约 4 万美元。

同样的攻击正在规模化。2025 年 1 月到 8 月，Group-IB 在一家金融机构就记录了 8,065 次类似的 deepfake 注入攻击，全部针对生产系统。

这些案例指向一个更大范围的变化：AI 图像和视频生成技术（以 GPT-Image-2、实时换脸工具为代表）正在系统性地否定金融行业长期依赖的安全假设。这些风险今天已经在造成数十亿美元的损失，而行业的应对才刚刚开始。

视觉确认的终结

金融行业的身份验证体系建立在一层又一层的视觉确认之上。开户时看你的证件照片，看你的脸是否和证件匹配，看你在摄像头前是否是个活人。每一层确认都对应一个假设，而这些假设正在被逐个击破。

活体检测：从”人在摄像头前”到”数据流来自真实摄像头”

活体检测（liveness detection）分三类。第一类是被动检测：系统分析照片中的皮肤纹理、光照反射等特征，判断是否为真人。第二类是主动检测：要求用户做指定动作（眨眼、转头），通过动态响应确认活人在场。第三类是 3D 检测：使用结构光或 LiDAR 传感器投射红外点阵，读取面部的三维深度信息。

前两类检测都在 2D 摄像头上运行，它们的安全假设是摄像头捕捉到的画面来自真实的物理世界。但当攻击者使用虚拟摄像头软件时，这个假设直接被跳过了。虚拟摄像头把 AI 生成的 deepfake 视频流伪装成硬件摄像头输入，操作系统和应用都将其视为合法设备。活体检测系统检测的是”这个画面中的人脸是否像真人”，而非”摄像头前是否真的有人”。

这种注入攻击的增长速度惊人。安全公司 ROC 的数据显示，2024 年注入攻击增长了 9 倍，虚拟摄像头利用增长了 28 倍。

发起这种攻击的门槛已经很低。开源工具 Deep Live Cam 只需要一张照片就能实时生成换脸视频，不需要训练模型，免费使用。也就是说，攻击者只需要从社交媒体获取目标的一张照片，就可以发起攻击。世界经济论坛（WEF）2026 年 1 月发布的 Cybercrime Atlas 报告测试了 17 个换脸工具和 8 个注入工具，发现大多数能绕过标准的 KYC 生物特征验证。一个能通过标准检测的合成面部图像，成本可以低至 5 美元。

3D 检测的安全性显著更高。Apple Face ID 使用 TrueDepth 摄像头投射超过 30,000 个红外点来重建面部三维结构，随机人解锁的概率小于百万分之一。但问题在于，大量设备没有这种硬件。英国消费者权益组织 Which? 自 2022 年以来测试了 208 款手机的面部解锁功能，发现 64% 可以被一张打印照片欺骗。2024 年最差的时候这个比例达到 72%，连售价超过 1,000 美元的旗舰机（如 Samsung Galaxy S25、Oppo Find X9 Pro）也不例外。虽然银行 app 已经不接受 Android 的 2D 面部识别作为认证因子，但手机解锁的脆弱性仍然为攻击链提供了入口：攻击者可以用照片解锁手机，截获短信验证码，发起密码重置。

证件和文档：AI 能伪造什么

活体检测只是身份验证的一个环节。在此之前，还有一个更基础的步骤：提交证件照片。而 AI 生成假证件的能力已经发展到了另一个量级。

Sumsub 的 2025 年报告显示，合成身份文档欺诈从 2024 年第一季度到 2025 年第一季度在全球增长了 195%，北美增长了 311%。AI 可以复制字体、布局、安全水印、全息图等安全特征。金融科技公司 Klaros Group 的合伙人 Sepideh Rowland 在 American Banker 的报道中演示了这个过程：用 Microsoft Copilot 生成逼真的收据只需要一句话的提示词，再加一条指令就能添加褶皱和水渍效果。她的结论是，AI 生成的金融和身份文档”几乎不可能被发现”。

不只是身份证件。工资单、银行流水、水电费账单——这些用于收入证明和地址证明的文档同样可以被伪造。而且这里有一个基础设施层面的缺失：目前没有中心化的数据库来验证水电费账单上的账户号是否真实属于相应的公用事业公司。你可以生成一份外观完整的电力公司账单，写上任何地址，没有任何数据库可以自动交叉验证。

这些能力已经被产品化。一个叫 ProKYC 的工具以每年 629 美元的价格出售，提供完整的三步 KYC 绕过流程：用 AI 生成假身份证件，生成与证件照片匹配的 deepfake 自拍视频，通过虚拟摄像头注入验证系统。演示视频展示了它成功通过加密交易所 Bybit 的 KYC 流程。TD Bank 对抗性情报负责人 Eric Huber 在行业会议上演示了这类工具的工作方式，指出类似套件的价格可低至 300 美元。

合成身份欺诈——用真实个人信息片段（如被盗的社会安全号码）和虚构数据拼装出一个不存在的人——已经造成了巨大的经济损失。TransUnion 的数据显示，截至 2024 年底，美国贷款机构因合成身份面临超过 33 亿美元的风险敞口。2024 年美国金融犯罪执法网络（FinCEN）发布了首份专门针对 deepfake 金融欺诈的正式警报，确认从 2023 年开始，金融机构报告的 deepfake 相关可疑活动持续增加。

KYC 的根本困境

传统 KYC（Know Your Customer）流程的设计逻辑是：在客户开户时做一次性的身份核验，通过后就假设这个人是真实的。这个设计在 AI 时代暴露了两个问题。

第一个问题是，一次性检查本身已经不可靠。当证件可以伪造、人脸可以合成、活体检测可以绕过时，通过 KYC 不再等于身份真实。

第二个问题可能更严重：Sumsub 的数据显示，76% 的欺诈发生在客户注册阶段之后。也就是说，即使 KYC 环节成功拦截了一些假身份，一旦攻击者通过了初始验证，后续几乎没有持续的身份再确认机制。KYC 是一个静态检查点，不是一个持续过程。

支票和转账：AI 打开的另一扇门

身份验证之外，AI 图像生成对支付和交易安全的冲击同样直接。

Mobile Deposit 的信任漏洞

美国的银行允许用户拍照存支票（mobile deposit）。传统的防线之一是要求用户在支票背面写上限制性背书（endorsement），比如 “For Mobile Deposit Only at XXX Bank”。但这道防线的前提是支票是真实的物理对象。

AI 已经具备生成足以通过 mobile deposit 审核的支票图像的能力。合规安全公司 Secureframe 披露了自身遭遇的真实案例：两张完全伪造的纸质支票被成功存入，而公司从未丢失过实体支票簿。欺诈者使用 AI 生成了外观足够逼真的支票图像，通过了银行 Positive Pay 系统的初步筛查。Secureframe 的结论是：AI 不需要制造完美的伪造品，只需要制造足够逼真的伪造品，逼真到能混入正常的操作噪声中。

双重存入的风险更加现实。2024 年 65% 的金融机构报告了通过远程存入渠道发生的支票欺诈，相关损失超过 4 亿美元。典型场景是：用户先通过手机 app 拍照存入支票，然后将同一张实体支票拿到柜台或 ATM 再存一次。银行的重复检测系统在同一机构、同一渠道内效果较好，但当欺诈者使用不同渠道或不同银行时，检测难度显著增加，因为大多数银行无法实时查看其他银行的存入记录。

Mitek 的 Check Fraud Defender 包含一项 “check liveness” 功能，能区分实体支票的直接拍照和屏幕翻拍，准确率 93.3%。但 mobile deposit 渠道有一个根本性的弱点：柜员可以通过触摸实物支票发现的安全特征（纸张水印、厚度、质感），在手机照片中完全无法验证。

暗网上的支票交易也在为这类欺诈提供原材料。Recorded Future 的研究追踪到 2024 年有 190 万张被盗美国银行支票在 700 多个 Telegram 频道上流通，被盗支票图像在窃取后平均 8 天内就会出现在交易平台上。

声音克隆：3 秒音频就够了

AI 对金融安全的影响也延伸到了声音。声音克隆技术的成熟让电话和视频会议中的身份确认同样失去了可靠性。

2019 年，一家英国能源公司的 CEO 接到一个自称是其德国母公司 CEO 的电话，要求在一小时内紧急汇款。这位 CEO 辨认出了”老板”轻微的德国口音和特征性的语调，确信是本人在说话。他执行了 22 万欧元的转账。资金随后从匈牙利转移到墨西哥，无法追回。

2024 年 1 月的香港案件规模大了一个数量级。全球工程咨询公司 Arup 香港分公司的一名财务员工被邀请参加视频会议，会议中出现了 CFO 和多位他认识的同事。所有人都是 AI 实时生成的 deepfake。该员工在确信会议参与者为真人后，执行了 15 笔转账，单日转账总计约 2,560 万美元。

2025 年 3 月的新加坡案件展示了攻击策略的进化。攻击者主动建议进行视频会议来讨论一笔交易，主动提供视频验证这个行为本身制造了信任感。公司因此损失了约 50 万美元。

制作一段有说服力的声音克隆，现在只需要大约 3 秒钟的音频样本。

金融行业在做什么

金融行业已经在多个层面展开防御，但每一层都面临各自的局限。

3D 活体检测 + 注入攻击检测

应对 deepfake 的第一道防线是升级活体检测。3D 活体检测通过结构光或 ToF 传感器读取面部深度信息，从物理层面区分真实 3D 人脸与任何平面呈现。主要的 KYC 供应商（FaceTec、Jumio、Identomat 等）均已推出 ISO 30107-3 认证的 3D 活体检测方案。配备 iBeta Level 2 认证的 3D 活体检测加 deepfake 检测的组合，误接受率可以达到亿分之一。

但 3D 检测需要特定硬件。Android 设备阵营中，只有少数旗舰机型配备结构光或 ToF 深度传感器。当设备不支持 3D 检测时，系统必须降级到 2D 检测，安全性随之降低。这个问题在 Android 占有率超过 80% 的新兴市场尤为严重，而这些恰恰是金融欺诈高发区域。

注入攻击检测也在成为标配。这类系统验证输入信号是否确实来自合法硬件摄像头，而非虚拟摄像头或其他软件注入。但目前的行业标准 ISO 30107-3 主要针对物理呈现攻击（照片、面具），对注入攻击的覆盖有限。

行为生物识别：不看你是谁，看你怎么做

行为生物识别（behavioral biometrics）关注的不是用户的身份特征，而是操作习惯。它持续分析击键节奏、鼠标轨迹、触屏力度、设备持握姿势等信号，形成动态风险评分。即使攻击者通过了面部识别，在操作账户时的行为模式与真实账户拥有者不同，仍然会触发异常警报。

deepfake 可以伪造一张脸，但很难同时伪造一个人长期积累的操作习惯。

BioCatch 是这个领域的领先供应商，在全球 50 多家金融机构部署。一家大型银行在部署后数月内识别出约 1,000 个用于转移赃款的”骡子账户”，98% 的案例是在现有系统报警之前就被行为分析发现的。欺诈检测率达到 98%。

行为生物识别的核心价值在于它填补了认证后的空白。传统生物识别在登录时做一次判断就结束了，而行为分析在整个会话期间持续运行。

AI 反 AI：检测工具的现实效果

AI 生成内容的检测是另一条防线，但厂商声称的性能和实际效果之间存在很大差距。

商业系统在受控环境中声称 96-98% 的准确率。但 Mitek Systems 的测试显示，把外部 deepfake 检测模型放到真实场景中时，误接受率在 60% 到 90% 之间——这意味着多数 deepfake 攻击被放过了。独立基准测试显示，最佳商业系统对视频 deepfake 的准确率为 78%，对音频为 89%。实验室准确率和真实环境表现之间可能存在 20-30 个百分点的落差。

这个差距有具体的技术原因。视频压缩引入的伪影会与 deepfake 伪影混淆，导致误判。检测模型的泛化能力也有限：在 GAN 生成的 deepfake 上训练的模型，对 diffusion model 生成的内容检测效果很差。每出一代新的生成模型，检测模型就需要用新数据重新训练。

Google SynthID 代表了另一种思路：在 AI 内容生成的瞬间嵌入不可感知的数字水印。Google 已经为超过 100 亿件内容加注了水印。但 SynthID 只覆盖 Google 自有模型的输出（Gemini、Imagen 等），ChatGPT、Stable Diffusion 等生成的内容不携带这种水印。而且 SynthID 已经被部分逆向工程，一位开发者通过 200 张纯黑图像和信号处理分析，声称以约 90% 的准确率检测并部分移除了水印。

监管正在追赶

各国监管机构已经开始行动。2024 年 11 月，美国 FinCEN 发布了首份 deepfake 金融欺诈警报，列出 9 项红旗指标，要求金融机构在可疑活动报告中使用专门的关键词标记。美国国会提出了 H.R.1734 法案，拟成立金融服务领域 AI 安全工作组。新加坡 MAS 发布了 deepfake 专项通函，要求金融机构采用分层检测技术。EU AI Act 的高风险条款将在 2026 年中期全面生效，许多身份验证系统被归为高风险 AI。中国也在 2024 年 9 月发布了国内首个金融领域 deepfake 检测标准，由工商银行、建设银行等 10 多家机构联合制定。

但监管进度和技术演进之间存在时间差。AI 工具迭代的周期是月级别的，而监管框架的调整通常需要一到两年。

攻防双方，谁在领先？

一个关键问题是：在生成能力（攻）和检测能力（守）之间，哪一方占据优势？

人工辨别这条路已经走不通了。iProov 2025 年的研究测试了 8,000 多名参与者，只有 0.1% 的人能正确识别所有 deepfake 内容。高质量视频 deepfake 的人类识别准确率只有 24.5%。60% 的人认为自己能分辨真假，但这种信心几乎完全不成立。德国联邦信息安全局（BSI）的判断更加直接：“没有人类操作员可以被训练来识别实时 deepfake。”

在 AI 对 AI 的层面，防守方目前维持着微弱的技术领先，但优势正在收窄。Broadcom/Symantec 的分析指出，防守方在 AI 应用上的经验积累更长、模型迭代的基础设施更成熟，但攻击方的优势在于不对称性：攻击者只需要找到一个漏洞，防守者需要守住每一个环节。

Gartner 2024 年的预测可以作为参照：到 2026 年，30% 的企业将认为单独使用的身份验证和认证方案不再可靠。身份验证本身不会被废弃，但它必须从单一环节变成多层组合。最有可能的均衡态是从一次性验证转向多信号持续验证：3D 活体检测 + 行为生物识别 + AI 内容取证 + 设备指纹 + 交易行为分析的叠加。

从损失数据来看，这场攻防的规模在快速扩大。Deloitte 预测 AI 驱动的美国金融欺诈损失将从 2023 年的 123 亿美元增长到 2027 年的 400 亿美元，年复合增长率 32%。deepfake 欺诈检测市场预计以 42% 的年增长率扩张，从 2023 年的 55 亿美元增长到 2026 年的 157 亿美元。攻防双方都在高速增长，但攻击方的增速目前更快。

普通人能做什么

FBI 和美国银行家协会在 2025 年 9 月联合发布了 deepfake 防范指南。最实用的几条建议：

收到紧急的汇款或转账请求时，暂停。不管请求来自电话、视频还是邮件，通过你已知的渠道（比如你自己存的电话号码）独立联系对方确认。Arup 案的员工如果在执行转账前拨打 CFO 的已知号码，这笔 2,560 万美元的损失就不会发生。

考虑和家人、同事建立一个验证暗语。在电话或视频中，可以通过暗语快速确认对方是否为真人。这个方法简单但有效，因为 deepfake 无法预知暗语。

减少社交媒体上个人信息的暴露。你公开的照片、视频和语音都可能被用来训练 deepfake 模型。声音克隆只需要 3 秒的音频样本。

对视觉确认的习惯性信任保持警惕。新加坡案件中的攻击者主动提出视频会议，利用的恰恰是人们对视频通话的信任感。在 AI 时代，看到并不等于验证。

数据来源和引用链接已嵌入正文。主要参考来源包括 FinCEN FIN-2024-Alert004、世界经济论坛 Cybercrime Atlas 报告（2026.1）、Group-IB 威胁情报、TransUnion 合成身份研究（2025.9）、Sumsub Identity Fraud Report 2025、Deloitte Center for Financial Services 预测、FBI/ABA 联合指南以及多个独立安全研究机构的基准测试。