产业与竞争推理与性能AI 产品与平台

AI 正在分裂成两个市场，你选哪一边

发布于 2026 年 5 月 23 日

2026 年 5 月，一家年营收 5000 万美元的 SaaS 公司收到了上个月的 AI 账单。数字是 8.7 万美元，比他们预计的高了三倍。这笔钱几乎全部来自同一个来源：工程师们把 Claude Code 接进了日常开发流程，agent 在后台自动跑测试、改代码、修 bug，每个 session 消耗几十万 token。

同一周，这家公司的 CTO 在另一个窗口里看到了 DeepSeek V4 Flash 的 API 价格。这是一个 284B 参数的 MoE 模型（13B 激活），Apache 2.0 开源，百万 token 上下文。输入只要 $0.14，输出 $0.28，缓存命中时输入更是低到 $0.0028。相比之下，Claude Opus 4.7 是 $15 输入、$75 输出。他算了一笔账：如果能把一部分非关键任务从 Claude 切到 DeepSeek，月度 AI 账单可以从 8.7 万大幅压缩。

这两个窗口同时出现在一个人的屏幕上，本身就是 2026 年 AI 行业最核心的悖论。

Token 价格在以每年 10 倍的速度下降。a16z 把这叫做”LLMflation”：同样性能的模型，2026 年的推理成本只有 2023 年的千分之一。Epoch AI 的数据显示，中位降幅是每年 50 倍，2024 年之后加速到了每年 200 倍。GPT-4 级别能力的 token 价格，从两年前的每百万 $30-60 掉到了今天的 $0.05-0.15。这听起来像 AI 在变便宜。

但同一组数字也显示，企业的 AI 账单在以更快的速度膨胀。FinOps Foundation 的 2026 年报告把 AI 列为增长最快的企业支出类别。Oplexa 的分析引用该报告称，企业的平均 AI 预算从 2024 年的 120 万美元涨到了 2026 年的 700 万美元。Fortune 500 级别的公司，月度推理账单达到数千万美元已经不再是新闻。

这两个趋势同时成立：单位价格在暴跌，总支出在暴涨。理解这对矛盾为什么同时发生，比争论”哪个模型最好”要重要得多。因为这对矛盾指向一个正在发生的市场分裂。AI 正在变成两个经济逻辑完全不同的行业，而大多数人还在用同一套框架理解它们。我之前写过软件变便宜之后更难卖了，这次的分裂是同一个底层逻辑在 AI 领域的具象化。

300 倍的差距

先看一张价格表。

2026 年 5 月，AI API 市场的最低价和最高价之间差了 300 倍。Digital Applied 的 LLM API Pricing Index 记录了 Q2 2026 的完整价格谱系：最低端是阿里的 Qwen 3.5 9B，每百万输入 token 只要 5 美分；最高端是 Anthropic 的 Claude Opus 4.7，每百万输入 token 15 美元。在输出端，DeepSeek V4 Flash 是每百万 $0.28，Opus 4.7 是 $75，差了将近 270 倍。Swfte AI 的 5 月定价报告用了另一个参照系：“能做同一件事的最贵和最便宜模型之间，输入端的价差已经超过了 50 倍。”在输出端，如果算上自建推理的价格，最高端是最低端的 250 倍。

这个差距在以惊人的速度扩大。2023 年 3 月 GPT-4 刚发布时，最贵和最便宜的模型差了 30 倍。2024 年 7 月 GPT-4o Mini 把低端拉到 $0.15，差距扩大到 33 倍。到 2025 年底中国开源模型大规模入场后，差距跳到了 150 倍以上。今天，300 倍。

关键在于这个差距的扩大方式不对称。低端在暴跌，高端几乎没动。从 2023 到 2026，最便宜的模型从 $2 掉到了 $0.05，降了 40 倍。最贵的模型从 $60 降到了 $15，只降了 4 倍。40 倍 vs 4 倍，这个不对称本身就是一个市场信号。

低端为什么跌成这样

低端价格崩溃有三个原因，它们叠加在一起形成了今天这个局面。

第一个原因是开源权重模型的商品化效应。DeepSeek V4 Flash 在 2026 年 4 月发布时，API 价格定在 $0.14 输入、$0.28 输出，比 Claude Opus 4.7 便宜 36 到 89 倍。而且它是 Apache 2.0 协议，权重公开，任何人都可以在自己的硬件上跑。这给整个定价体系设了一个新的价格锚。这个锚不再是”比 GPT-4 便宜多少”，而是”比自建推理贵多少”。

第二个原因是中国 AI 实验室的系统性低价策略。这不是个别公司的战术选择，而是整个中国 AI 产业的竞争策略。美国国会下属的美中经济与安全审查委员会（USCC）在 2026 年 3 月发布了一份题为”Two Loops”的报告，系统分析了中国的开源 AI 战略。报告的核心发现是：中国选择了一条全面拥抱开源的道路，用极低的 API 价格加速全球采用，再用全球采用产生的数据和生态反哺模型迭代。

这个策略正在起效。2024 年底，中国模型在全球 API 使用量中的占比只有 1% 左右。到 2025 年底，这个数字跳到了接近 30%。在 OpenRouter 这个开发者密集的平台上，2026 年 4 月中国模型的 token 占比超过了 45%。小米的 MiMo V2 Pro 成了平台上用量最大的单一模型。小米一家占了 21.1% 的 token 量，而 OpenAI 全家加起来只有 7.5%。

第三个原因是推理效率本身的快速进步。GLM-5.1 的高速版 API 在 5 月达到了 400 tokens/s 的输出速度。智谱的 TileRT 推理引擎不是在”优化得更快”，而是从执行模型层面重构了 GPU 推理。它把计算流程从批处理模式改成了连续流水线，消除了步骤之间的闲置间隙。这种效率提升直接转化成了价格优势。我在之前的文章里详细分析过这套架构。

高端为什么不跟着跌

如果低端在暴跌，为什么高端不跌？答案藏在三件事里。

第一件是企业锁定。Anthropic 的年化营收从 2025 年底的 90 亿美元，用四个月跑到了 300 亿美元。这个增速是美国企业史上最快的之一。驱动它的不是消费者订阅，而是企业深度集成：KPMG 把 Claude 嵌入了 Digital Gateway 平台，27.6 万员工全员接入；ServiceNow 把 Claude 设为其 Build Agent 的默认模型，这个 Agent 运行在每年 800 亿个工作流的平台上。超过 1000 家企业客户每年在 Claude 上的消费超过 100 万美元。

这些数字讲述的不是”模型更好”，而是”换不掉了”。当一个 AI 模型被接进了 KPMG 的审计流程、ServiceNow 的工单系统、高盛的交易对账管线，它的替换成本远不止 API 价格差。这就是高端市场能维持溢价的原因。客户买的不是 token，是集成深度和切换惰性。

不过这里有一个反面：如果模型性能正在趋同，换一个供应商应该很容易才对。a16z 的 2025 年企业 AI 报告专门跟踪了这个问题，结论出人意料。2024 年他们发现大多数企业在有意设计模型无关的架构，切换成本很低。但一年后，随着 agentic workflow 的普及，情况反转了。一家企业受访者说，所有 prompt 都是为 OpenAI 调的，每套都有自己的一套指令和细节。Agent 的指令动辄几十页，质量保证也不是小事。换模型现在是一个需要大量工程时间的任务。

Menlo Ventures 的 2025 年企业 AI 报告用市场份额数据印证了这一点：Anthropic 从 12%（2023）涨到 40%（2025），OpenAI 从 50% 跌到 27%。但关键细节是，这种份额变化主要来自新工作负载向新供应商倾斜，而不是大规模迁移存量。企业同时跑多个模型，各自承担不同的任务。这不是”切换容易”的证据，这是”新需求分流”的证据。

我在 Anthropic 让 Claude Cowork 跑第三方模型的分析中讨论过这个问题：模型层本身的切换成本在降低（OpenAI 兼容 API 已成事实标准），但运行时层和控制面层的切换成本在升高。你换掉底层模型，但 prompt 要重写、eval 要重跑、护栏要重构、agent 行为要重新验证。这些成本不体现在 API 价格上，但决定了企业能不能真的换。

第二件是 Agent 工作负载把需求推到了另一个数量级。Gartner 的 2026 年分析把 agent 工作负载的 token 消耗定在传统聊天的 5 到 30 倍。斯坦福数字经济实验室的实测数据显示，agentic coding 任务消耗的 token 是代码推理的 1000 倍，而且成本驱动方是输入 token（上下文累积）而不是输出 token。

这意味着什么？一个工程师过去一天调用 100 次 chat API，每次几百 token，总共几万 token。现在他让 agent 跑一个重构任务，一次 session 就消耗 100 万 token。Uber 的工程师团队把 Claude Code 的采用率从 32% 推到了 84%，结果整个 2026 年的 AI 预算在四个月内烧完。Together AI 的平台 token 消耗量从 2025 年初的每天 100 亿，涨到了 2026 年初的每天 5 万亿。一年涨了 500 倍。

当需求以这个速度膨胀，供给侧的定价权自然回到了厂商手里。

第三件是补贴正在退潮。OpenAI 的内部财务文件显示，2026 年预计亏损 140 亿美元，2023 到 2028 年累计亏损 440 亿美元。Anthropic 的毛利率在 40% 左右。对于一家 SaaS 公司来说，这个数字意味着每收 1 美元就有 60 美分花在了推理计算上。Epoch AI 的分析指出，OpenAI 在 GPT-5 的生命周期里毛利率只有 30%，而且 R&D 投入远超毛利润。在 GPT-5 发布前的四个月里花的研发费用，比 GPT-5 整个生命周期产生的毛利润还多。

Capstone DC 在 4 月的分析记录了一个更直接的信号：Anthropic 在 Opus 4.7 发布前，发现大量固定价格合同的用户”3-4 轮对话就触达 session 上限”。这些用户不是异常，他们是 agent 用户。Anthropic 随后禁止了个人 agent 使用固定价格合同，metered 用量下个人 agent 一天可以跑到”几百美元”。Capstone 的结论是”廉价实验时代的结束已经开始”。

三家公司都在准备 IPO。OpenAI 最快本周提交 confidential filing，9 月上市。SpaceX 的 S-1 已经公开。Anthropic 的年化营收已经超过了 OpenAI。我在三份招股书的分析中讨论过这三家公司各自押注了什么。在上市前的窗口期，每一家都需要向市场展示一条可持续的盈利路径。这意味着补贴在系统性撤回，无论是免费 tier 的推理成本，还是固定价格合同下的 agent 补贴。

两个市场，一种基础设施

把低端和高端放在一起看，格局就很清楚了。

低端市场由成本驱动。竞争焦点是推理效率、开源生态和价格战。参与者是中国 AI 实验室、开源社区、推理引擎公司。这个市场的用户是价格敏感的开发者，他们需要的是”足够好、足够快、足够便宜”。GLM-5.1 的 400 tokens/s 在这里竞争，DeepSeek 的 Apache 2.0 权重在这里竞争，Qwen 的 $0.05 也在这里竞争。

高端市场由锁定驱动。竞争焦点是企业集成深度、安全合规、切换成本。参与者是 Anthropic、OpenAI、Google 这些 frontier lab。这个市场的用户是预算不敏感的企业客户，他们需要的是”接进去了就别出问题”。ServiceNow 每年 800 亿个工作流跑在 Claude 上，这不是 API 价格能撬动的客户。

两个市场的经济逻辑完全不同。在低端，利润率趋近于零，赢家是成本最低的运营商。在高端，利润率由切换成本保护，赢家是集成最深的供应商。这不是同一个行业的两个细分，这是两个行业。

但对 builder 来说，最棘手的问题不是选哪一边。问题是两边都要用。同一个团队，非关键任务用 DeepSeek 或 Qwen 控制成本，关键任务用 Claude 或 GPT-5.5 保证质量。这个”都要用”的需求，创造了一个新的瓶颈：模型路由和成本治理的基础设施。

斯坦福的研究发现，同一 agent 任务在不同运行之间 token 消耗的差异可以达到 30 倍。Mavvrik 的报告显示 80-85% 的企业 AI 基础设施预算预测偏差超过 25%。这些数字说明一件事：大多数团队在管理 AI 成本这件事上，还处在凭感觉的阶段。

这不是谁的错。2023 年你只需要一个模型，价格透明，用量可预测。2026 年你要在 10 个以上的模型之间做路由，每个的价格和性能特性都不一样，agent 的 token 消耗高度随机，而且最贵的模型和最便宜的模型差了 300 倍。选错了，成本翻 10 倍。选对了，省 90%。这个决策空间在一年前不存在，今天它是每个 AI 团队的日常。

接下来该做什么

有三件事可以在接下来 6-12 个月里落地。

第一，把模型选择从人工决策变成系统决策。你的团队不应该每次手动选”这次用 GPT-5.5 还是 DeepSeek”。应该有一个路由层，根据任务类型、质量要求、成本预算自动分发。在 300 倍的价差下，没有路由层等于没有成本控制。

第二，把 agent 成本纳入工程指标。大多数团队监控 API 延迟和错误率，但不监控 token 消耗和成本。当同一个任务在不同运行之间可以差 30 倍 token 时，不监控消耗就等于在盲飞。每轮 agent session 的成本应该和延迟、准确率一样，出现在每个 PR 的审查清单里。

第三，接受”两个市场”的现实而不是赌一边。不要在”AI 会变得很便宜所以全用开源”和”AI 必须是 frontier 所以全用闭源”之间二选一。两个判断都对，只是对应不同的任务。关键不是选边站，是建好两边之间的桥梁。

2026 年的 AI 市场不是”变便宜了”，是分裂了。低端在趋近于零，高端在持续走高，中间留下了 300 倍的价差。这个价差不是市场的缺陷，它是市场的新结构。理解它、利用它的人，会在下一阶段的竞争中拿到不对称的优势。不理解它、继续用 2023 年的框架做 2026 年决策的人，会发现自己每月的 AI 账单越来越高，却说不清钱花在了哪里。

问题的关键不是 AI 变没变便宜。问题是你能不能同时在两个市场里高效运作。

本文完全在 Mac 上由本地运行的 DeepSeek V4 Flash（ds4 引擎）调研和写作完成。推理引擎来自 antirez 的 ds4 项目，模型为 DeepSeek V4 Flash（284B 参数，13B 激活，Apache 2.0）。