产业与竞争推理与性能AI 产品与平台

AI 正在分裂成两个市场,你选哪一边

2026 年 5 月,一家年营收 5000 万美元的 SaaS 公司收到了上个月的 AI 账单。数字是 8.7 万美元,比他们预计的高了三倍。这笔钱几乎全部来自同一个来源:工程师们把 Claude Code 接进了日常开发流程,agent 在后台自动跑测试、改代码、修 bug,每个 session 消耗几十万 token。

同一周,这家公司的 CTO 在另一个窗口里看到了 DeepSeek V4 Flash 的 API 价格。这是一个 284B 参数的 MoE 模型(13B 激活),Apache 2.0 开源,百万 token 上下文。输入只要 $0.14,输出 $0.28,缓存命中时输入更是低到 $0.0028。相比之下,Claude Opus 4.7 是 $15 输入、$75 输出。他算了一笔账:如果能把一部分非关键任务从 Claude 切到 DeepSeek,月度 AI 账单可以从 8.7 万大幅压缩。

这两个窗口同时出现在一个人的屏幕上,本身就是 2026 年 AI 行业最核心的悖论。

Token 价格在以每年 10 倍的速度下降。a16z 把这叫做”LLMflation”:同样性能的模型,2026 年的推理成本只有 2023 年的千分之一。Epoch AI 的数据显示,中位降幅是每年 50 倍,2024 年之后加速到了每年 200 倍。GPT-4 级别能力的 token 价格,从两年前的每百万 $30-60 掉到了今天的 $0.05-0.15。这听起来像 AI 在变便宜。

但同一组数字也显示,企业的 AI 账单在以更快的速度膨胀。FinOps Foundation 的 2026 年报告把 AI 列为增长最快的企业支出类别。Oplexa 的分析引用该报告称,企业的平均 AI 预算从 2024 年的 120 万美元涨到了 2026 年的 700 万美元。Fortune 500 级别的公司,月度推理账单达到数千万美元已经不再是新闻。

这两个趋势同时成立:单位价格在暴跌,总支出在暴涨。理解这对矛盾为什么同时发生,比争论”哪个模型最好”要重要得多。因为这对矛盾指向一个正在发生的市场分裂。AI 正在变成两个经济逻辑完全不同的行业,而大多数人还在用同一套框架理解它们。我之前写过软件变便宜之后更难卖了,这次的分裂是同一个底层逻辑在 AI 领域的具象化。

300 倍的差距

先看一张价格表。

2026 年 5 月,AI API 市场的最低价和最高价之间差了 300 倍。Digital Applied 的 LLM API Pricing Index 记录了 Q2 2026 的完整价格谱系:最低端是阿里的 Qwen 3.5 9B,每百万输入 token 只要 5 美分;最高端是 Anthropic 的 Claude Opus 4.7,每百万输入 token 15 美元。在输出端,DeepSeek V4 Flash 是每百万 $0.28,Opus 4.7 是 $75,差了将近 270 倍。Swfte AI 的 5 月定价报告用了另一个参照系:“能做同一件事的最贵和最便宜模型之间,输入端的价差已经超过了 50 倍。”在输出端,如果算上自建推理的价格,最高端是最低端的 250 倍。

这个差距在以惊人的速度扩大。2023 年 3 月 GPT-4 刚发布时,最贵和最便宜的模型差了 30 倍。2024 年 7 月 GPT-4o Mini 把低端拉到 $0.15,差距扩大到 33 倍。到 2025 年底中国开源模型大规模入场后,差距跳到了 150 倍以上。今天,300 倍。

关键在于这个差距的扩大方式不对称。低端在暴跌,高端几乎没动。从 2023 到 2026,最便宜的模型从 $2 掉到了 $0.05,降了 40 倍。最贵的模型从 $60 降到了 $15,只降了 4 倍。40 倍 vs 4 倍,这个不对称本身就是一个市场信号。

低端为什么跌成这样

低端价格崩溃有三个原因,它们叠加在一起形成了今天这个局面。

第一个原因是开源权重模型的商品化效应。DeepSeek V4 Flash 在 2026 年 4 月发布时,API 价格定在 $0.14 输入、$0.28 输出,比 Claude Opus 4.7 便宜 36 到 89 倍。而且它是 Apache 2.0 协议,权重公开,任何人都可以在自己的硬件上跑。这给整个定价体系设了一个新的价格锚。这个锚不再是”比 GPT-4 便宜多少”,而是”比自建推理贵多少”。

第二个原因是中国 AI 实验室的系统性低价策略。这不是个别公司的战术选择,而是整个中国 AI 产业的竞争策略。美国国会下属的美中经济与安全审查委员会(USCC)在 2026 年 3 月发布了一份题为”Two Loops”的报告,系统分析了中国的开源 AI 战略。报告的核心发现是:中国选择了一条全面拥抱开源的道路,用极低的 API 价格加速全球采用,再用全球采用产生的数据和生态反哺模型迭代。

这个策略正在起效。2024 年底,中国模型在全球 API 使用量中的占比只有 1% 左右。到 2025 年底,这个数字跳到了接近 30%。在 OpenRouter 这个开发者密集的平台上,2026 年 4 月中国模型的 token 占比超过了 45%。小米的 MiMo V2 Pro 成了平台上用量最大的单一模型。小米一家占了 21.1% 的 token 量,而 OpenAI 全家加起来只有 7.5%。

第三个原因是推理效率本身的快速进步。GLM-5.1 的高速版 API 在 5 月达到了 400 tokens/s 的输出速度。智谱的 TileRT 推理引擎不是在”优化得更快”,而是从执行模型层面重构了 GPU 推理。它把计算流程从批处理模式改成了连续流水线,消除了步骤之间的闲置间隙。这种效率提升直接转化成了价格优势。我在之前的文章里详细分析过这套架构

高端为什么不跟着跌

如果低端在暴跌,为什么高端不跌?答案藏在三件事里。

第一件是企业锁定。Anthropic 的年化营收从 2025 年底的 90 亿美元,用四个月跑到了 300 亿美元。这个增速是美国企业史上最快的之一。驱动它的不是消费者订阅,而是企业深度集成:KPMG 把 Claude 嵌入了 Digital Gateway 平台,27.6 万员工全员接入;ServiceNow 把 Claude 设为其 Build Agent 的默认模型,这个 Agent 运行在每年 800 亿个工作流的平台上。超过 1000 家企业客户每年在 Claude 上的消费超过 100 万美元。

这些数字讲述的不是”模型更好”,而是”换不掉了”。当一个 AI 模型被接进了 KPMG 的审计流程、ServiceNow 的工单系统、高盛的交易对账管线,它的替换成本远不止 API 价格差。这就是高端市场能维持溢价的原因。客户买的不是 token,是集成深度和切换惰性。

不过这里有一个反面:如果模型性能正在趋同,换一个供应商应该很容易才对。a16z 的 2025 年企业 AI 报告专门跟踪了这个问题,结论出人意料。2024 年他们发现大多数企业在有意设计模型无关的架构,切换成本很低。但一年后,随着 agentic workflow 的普及,情况反转了。一家企业受访者说,所有 prompt 都是为 OpenAI 调的,每套都有自己的一套指令和细节。Agent 的指令动辄几十页,质量保证也不是小事。换模型现在是一个需要大量工程时间的任务。

Menlo Ventures 的 2025 年企业 AI 报告用市场份额数据印证了这一点:Anthropic 从 12%(2023)涨到 40%(2025),OpenAI 从 50% 跌到 27%。但关键细节是,这种份额变化主要来自新工作负载向新供应商倾斜,而不是大规模迁移存量。企业同时跑多个模型,各自承担不同的任务。这不是”切换容易”的证据,这是”新需求分流”的证据。

在 Anthropic 让 Claude Cowork 跑第三方模型的分析中讨论过这个问题:模型层本身的切换成本在降低(OpenAI 兼容 API 已成事实标准),但运行时层和控制面层的切换成本在升高。你换掉底层模型,但 prompt 要重写、eval 要重跑、护栏要重构、agent 行为要重新验证。这些成本不体现在 API 价格上,但决定了企业能不能真的换。

第二件是 Agent 工作负载把需求推到了另一个数量级。Gartner 的 2026 年分析把 agent 工作负载的 token 消耗定在传统聊天的 5 到 30 倍。斯坦福数字经济实验室的实测数据显示,agentic coding 任务消耗的 token 是代码推理的 1000 倍,而且成本驱动方是输入 token(上下文累积)而不是输出 token。

这意味着什么?一个工程师过去一天调用 100 次 chat API,每次几百 token,总共几万 token。现在他让 agent 跑一个重构任务,一次 session 就消耗 100 万 token。Uber 的工程师团队把 Claude Code 的采用率从 32% 推到了 84%,结果整个 2026 年的 AI 预算在四个月内烧完。Together AI 的平台 token 消耗量从 2025 年初的每天 100 亿,涨到了 2026 年初的每天 5 万亿。一年涨了 500 倍。

当需求以这个速度膨胀,供给侧的定价权自然回到了厂商手里。

第三件是补贴正在退潮。OpenAI 的内部财务文件显示,2026 年预计亏损 140 亿美元,2023 到 2028 年累计亏损 440 亿美元。Anthropic 的毛利率在 40% 左右。对于一家 SaaS 公司来说,这个数字意味着每收 1 美元就有 60 美分花在了推理计算上。Epoch AI 的分析指出,OpenAI 在 GPT-5 的生命周期里毛利率只有 30%,而且 R&D 投入远超毛利润。在 GPT-5 发布前的四个月里花的研发费用,比 GPT-5 整个生命周期产生的毛利润还多。

Capstone DC 在 4 月的分析记录了一个更直接的信号:Anthropic 在 Opus 4.7 发布前,发现大量固定价格合同的用户”3-4 轮对话就触达 session 上限”。这些用户不是异常,他们是 agent 用户。Anthropic 随后禁止了个人 agent 使用固定价格合同,metered 用量下个人 agent 一天可以跑到”几百美元”。Capstone 的结论是”廉价实验时代的结束已经开始”。

三家公司都在准备 IPO。OpenAI 最快本周提交 confidential filing,9 月上市。SpaceX 的 S-1 已经公开。Anthropic 的年化营收已经超过了 OpenAI。我在三份招股书的分析中讨论过这三家公司各自押注了什么。在上市前的窗口期,每一家都需要向市场展示一条可持续的盈利路径。这意味着补贴在系统性撤回,无论是免费 tier 的推理成本,还是固定价格合同下的 agent 补贴。

两个市场,一种基础设施

把低端和高端放在一起看,格局就很清楚了。

低端市场由成本驱动。竞争焦点是推理效率、开源生态和价格战。参与者是中国 AI 实验室、开源社区、推理引擎公司。这个市场的用户是价格敏感的开发者,他们需要的是”足够好、足够快、足够便宜”。GLM-5.1 的 400 tokens/s 在这里竞争,DeepSeek 的 Apache 2.0 权重在这里竞争,Qwen 的 $0.05 也在这里竞争。

高端市场由锁定驱动。竞争焦点是企业集成深度、安全合规、切换成本。参与者是 Anthropic、OpenAI、Google 这些 frontier lab。这个市场的用户是预算不敏感的企业客户,他们需要的是”接进去了就别出问题”。ServiceNow 每年 800 亿个工作流跑在 Claude 上,这不是 API 价格能撬动的客户。

两个市场的经济逻辑完全不同。在低端,利润率趋近于零,赢家是成本最低的运营商。在高端,利润率由切换成本保护,赢家是集成最深的供应商。这不是同一个行业的两个细分,这是两个行业。

但对 builder 来说,最棘手的问题不是选哪一边。问题是两边都要用。同一个团队,非关键任务用 DeepSeek 或 Qwen 控制成本,关键任务用 Claude 或 GPT-5.5 保证质量。这个”都要用”的需求,创造了一个新的瓶颈:模型路由和成本治理的基础设施。

斯坦福的研究发现,同一 agent 任务在不同运行之间 token 消耗的差异可以达到 30 倍。Mavvrik 的报告显示 80-85% 的企业 AI 基础设施预算预测偏差超过 25%。这些数字说明一件事:大多数团队在管理 AI 成本这件事上,还处在凭感觉的阶段。

这不是谁的错。2023 年你只需要一个模型,价格透明,用量可预测。2026 年你要在 10 个以上的模型之间做路由,每个的价格和性能特性都不一样,agent 的 token 消耗高度随机,而且最贵的模型和最便宜的模型差了 300 倍。选错了,成本翻 10 倍。选对了,省 90%。这个决策空间在一年前不存在,今天它是每个 AI 团队的日常。

接下来该做什么

有三件事可以在接下来 6-12 个月里落地。

第一,把模型选择从人工决策变成系统决策。你的团队不应该每次手动选”这次用 GPT-5.5 还是 DeepSeek”。应该有一个路由层,根据任务类型、质量要求、成本预算自动分发。在 300 倍的价差下,没有路由层等于没有成本控制。

第二,把 agent 成本纳入工程指标。大多数团队监控 API 延迟和错误率,但不监控 token 消耗和成本。当同一个任务在不同运行之间可以差 30 倍 token 时,不监控消耗就等于在盲飞。每轮 agent session 的成本应该和延迟、准确率一样,出现在每个 PR 的审查清单里。

第三,接受”两个市场”的现实而不是赌一边。不要在”AI 会变得很便宜所以全用开源”和”AI 必须是 frontier 所以全用闭源”之间二选一。两个判断都对,只是对应不同的任务。关键不是选边站,是建好两边之间的桥梁。

2026 年的 AI 市场不是”变便宜了”,是分裂了。低端在趋近于零,高端在持续走高,中间留下了 300 倍的价差。这个价差不是市场的缺陷,它是市场的新结构。理解它、利用它的人,会在下一阶段的竞争中拿到不对称的优势。不理解它、继续用 2023 年的框架做 2026 年决策的人,会发现自己每月的 AI 账单越来越高,却说不清钱花在了哪里。

问题的关键不是 AI 变没变便宜。问题是你能不能同时在两个市场里高效运作。


本文完全在 Mac 上由本地运行的 DeepSeek V4 Flash(ds4 引擎)调研和写作完成。推理引擎来自 antirez 的 ds4 项目,模型为 DeepSeek V4 Flash(284B 参数,13B 激活,Apache 2.0)。

鸭哥每日手记

日更的深度AI新闻和分析