AI 产品与平台产业与竞争开发工具

AI 语音输入的胜负不在模型层，在键盘层

发布于 2026 年 5 月 12 日

2026 年 5 月 12 日，Google 在 Android Show 上发布了 Gboard Rambler，一个基于 Gemini 模型的语音输入功能，预装在 Gboard 键盘里，免费。

同一天，AI 语音输入创业公司 Wispr Flow 的融资总额是 8100 万美元，Typeless 在从 2025 年 11 月的隐私丑闻中恢复，Superwhisper 的终身授权卖 249 美元。过去两年这个赛道出了七八家有融资的创业公司，从 Dragon（Nuance，1997 年成立，2022 年被 Microsoft 以 197 亿美元收购）到 Wispr Flow，语音输入一直是创业公司的地盘。

现在 Google 进来了。

主流报道大多在对比 AI 能力——谁的填充词去除更好，谁的自动修正更准，谁支持更多语言。如果你只看这些维度，创业公司看起来不差：Typeless 宣称 100 多种语言，Wispr Flow 标称 97% 准确率，Superwhisper 有完全本地处理的隐私优势。

但这些都比偏了。

我不是说 Rambler 的 AI 一定比竞品好。目前没有第三方横向测评数据——谁也不知道 Rambler 的实际准确率和延迟。我想说的是另一个问题：在这个市场里，AI 能力的差异已经不一定是胜负手了。真正的胜负在键盘层，而键盘层已经被平台锁死了。

一、AI 质量正在 commoditize

先说清楚什么已经被拉平。

2026 年的 AI 语音输入，有几项能力是所有主要产品都能做的：去除”嗯”“啊”等填充词、自动加标点、把口语整理成书面段落、理解说了一半改口（“不对，香蕉不要了”→从列表移除香蕉）。

这件事听起来简单，但在 2023 年之前几乎没有消费级产品能做到。Dragon NaturallySpeaking 的用户需要对着麦克风一小时一小时地训练语音模型，然后手动纠正剩余的错误。现在打开任何一个现代语音输入产品，它已经在原生级别处理这些。

这些能力 commoditize 的速度比多数人预期的快。Rambler 有，Typeless 官网明确写了一模一样的”Auto-edits when you change your mind”，Wispr Flow 的竞品对比页面也列了同样的功能。在原始转录准确率上，主流方案都在 90% 到 97% 之间（不同的测试环境、不同的口音会导致波动，但没有一家在这个范围内有量级差距）。

在这个背景下，继续比拼”谁更能去掉填充词”，相当于在 2026 年比拼哪家浏览器的页面渲染速度更快——差距存在，但对实际体验的影响已经降到大多数用户感知不到的程度。

二、真正的差异在三个层面

既然如此，什么才是真正决定胜负的变量？三个。

第一，键盘就是入口。 在 Android 上，Gboard 是绝大多数手机的默认键盘。Rambler 的麦克风按钮直接嵌在键盘上——用户在任何一个 app 的文本框中，点一下按钮就开始说话，说完文字出现在光标位置。不需要切换 app，不需要复制粘贴。

在 iOS 上，情况更极端。Apple 从 2014 年（iOS 8）起，明确禁止第三方键盘扩展访问麦克风。Apple 开发者文档里写得很清楚——“No access to microphone and speaker”。WhisperBoard 这个开源语音转文字项目的作者在 GitHub 上解释为什么他放弃做 iOS 键盘扩展时，写了这样一句话：“keyboard extensions still can’t access the microphone directly. The only workaround forces the host app to record and communicate with the keyboard. That handoff creates horrible UX.”

WhisperBoard 的作者尝试的是一种方案（让键盘扩展通知宿主 app 录音，再回传），他放弃了。Typeless 和 Wispr Flow 用的是另一种方案，同样绕过了”键盘扩展不能访问麦克风”的限制，但仍然不干净。它们走的路线大致是：请求一次麦克风权限后，利用后台音频会话（类似 VoIP 或通话的音频通道）让麦克风在切回原 app 后继续保持可用。用户不需要切到听写 app 里说话再粘贴——在原 app 里点一下录音按钮就可以开始说，文字直接出现在光标位置。

但这套机制有几个别扭的地方。一是有一个定时自动关闭——用户可以选择 5 分钟或 12 小时后自动断开麦克风。如果选 5 分钟，每过一会儿就得重新激活。如果选 12 小时，系统会一直维持一个后台音频通道，耗电不说，连车载蓝牙都会把它识别成在打电话——因为你手机的音频路由确实被占用了。用户上了车发现音乐播不了，排查一圈才知道是听写 app 占着音频通道没放。

这套机制能工作，但它是靠维持一个后台音频会话来”骗”过 iOS 的键盘权限限制。本质上是用一个系统层面更贵的代价（持续占用音频通道、蓝牙冲突、耗电）来换取”不需要切 app 粘贴”的基本体验。

而 Apple 自己的内置听写——功能上远远落后于 Typeless 和 Wispr 的 AI 后处理——但它在键盘上有一个可以直接按的麦克风按钮。不需要额外授权、不需要后台音频通道、不存在蓝牙冲突。一按就说话，说完文字就在光标位置。

这个不对称不只存在于 iOS。Google 在 iOS 上也绕不开这个限制（它做的 AI Edge Eloquent 同样是独立 app，不能是键盘扩展）。但在 Android 上，Google 可以做到第三方永远做不到的事：在键盘内发起语音采集。这是 2014 年一行 API 限制写下的物理边界，不是任何一家创业公司的产品总监能通过”做更好产品”跨越的。

第二，本地加云端双路架构，而创业公司只能二选一。 Google 的 Rambler 用 Gemini Nano 在设备端处理基础任务，需要更强能力时走 Gemini 云端——既能保护基础隐私，又能保证复杂场景的质量。

创业公司没有这个选项。Wispr Flow 的技术栈是 Baseten（语音转文本）+ OpenAI/Anthropic/Cerebras（后处理），全链路在 AWS us-east-1 区域完成。Typeless 同样走云端，AWS us-east-2。你说话，音频离开你的设备，经过至少三四家第三方服务商的处理链，最后文字回到你屏幕上。这两家公司都声称”不留存数据”，但这只是政策层面的承诺，不是架构层面的保证——如果 AWS 出现安全事件，或者公司修改了隐私政策，你的语音数据已经离开设备了。

另一条路是全本地处理——Superwhisper 在 macOS 上跑本地 Whisper 模型，Voibe 在 Apple Silicon 上用 CoreML——但本地模型在非英语语言、嘈杂环境、口音适配等场景下准确率低于云端能力。

创业公司在这两条路之间二选一。Google 哪条都不用选。这不需要 Google 的 AI 比创业公司更好——只要 Google 的混合架构比创业公司的单一架构覆盖了更多场景，就占了架构层面的不对称优势。

第三，免费 vs 每月 10 到 15 美元。 Typeless 年付 12 美元/月（月付 30 美元），Wispr Flow 15 美元/月，Willow Voice 12-15 美元/月，Superwhisper 最近开始走订阅。而 Gboard 语音输入免费——不需要注册，不需要绑卡。

在密码管理器、截图工具、VPN 等品类里，有一个被反复验证的市场模式：当平台方提供免费、预装、“够用”的替代品时，大量用户不会主动去寻找更好的付费版本。他们不会比较竞品，不会看评测，不会下载第三个 app。他们会用已经在那里的那个。

这不是说付费产品会死。1Password 在 Apple Passwords 发布后照样活得不错，CleanShot X 在 macOS 原生截图工具存在的情况下卖 29 美元仍然有人买。但它们之所以能生存，是因为它们在这些品类里实打实地提供了内置工具做不到或做不好的功能。

语音输入的创业公司能做到这一点吗？部分能做到——在桌面端（Mac/Windows），没有 Android 那样的键盘权限限制。Wispr Flow 在桌面端有全局快捷键，Superwhisper 深度集成到 macOS 的辅助功能接口。创业公司的优势区域在桌面端专业用户：开发者、写作者、频繁需要语音转文字的从业者。

创业公司常用的差异化叙事之一是隐私——“我们比 Google 更注重你的数据。”但 Typeless 在 2025 年 11 月被逆向工程发现其 macOS 客户端收集了 URL、窗口标题、剪贴板内容等远超必要的信息，与其官网”零留存”的表述矛盾。Wispr Flow 在 2026 年 3 月被曝其 SOC 2 审计报告是模板生成的（494 份报告中 493 份包含相同的文本），正在等待 A-LIGN 重新审计。这两件事不意味着创业公司一定不如 Google 安全，但它们说明”小公司 = 更安全”这个等式在目前的语音输入市场里没有事实支撑。

但移动端的大众市场——“我在微信里不想打字，想用嘴说”——这个市场的入口在键盘上，而键盘是平台的。

三、两个重要的约束

讲了这么多平台的优势，应该补两个重要的限定。

第一，Google 不一定坚持。 Google 在历史上砍掉过 166 个产品。2020 年，Gboard 曾经短暂上线过一个升级版语音输入功能然后又撤回了。Rambler 目前限定在 Pixel 和 Samsung Galaxy 设备，夏天才开始逐步推送。我们不能假定 Google 这次一定坚持到底。如果 Google 两年后失去兴趣、把 Rambler 降级成维护模式，那创业公司不仅不会被淘汰，还可能在 Google 教育完市场后收割愿意付费的用户——就像 Grammarly 在平台拼写检查已经内置二十多年之后仍然能做到 130 亿美元估值。

第二，AI 后处理层仍然有差异化空间。 虽然基础转录 commoditize 了，但边说边改（“把这段话改成更正式的语气”）、跨语言实时翻译、多语言混说（同一句话里切英语和印地语）——这些 Rambler 要么没有，要么只在特定语言间支持。创业公司在这一层仍然领先。问题只在于：这一层的差异化，是否足以驱动用户在移动端从免费预装的键盘切换到月费 12 美元的独立 app？答案很可能随用户群体分化：专业用户会，大众用户不会。

语音输入市场正在重跑拼写检查走过的路。内置拼写检查在操作系统里存在了三十年，Grammarly 仍然靠上层差异化做到了 130 亿美元的估值。它没有赢在拼写纠错——那层 commoditize 得太早了。它赢在语调、风格、语气——那些拼写检查不做的事。

对语音输入来说，基础转录正在 commoditize，键盘入口正在被平台锁定，免费预装正在压缩付费意愿。创业公司的可行空间比看起来窄——但如果你能在这个窗口里找到基础设施提供不了的、用户愿意为之付费的上一层价值，Grammarly 的路不是不能走。只是窗口不等人。

一、AI 质量正在 commoditize

二、真正的差异在三个层面

三、两个重要的约束

鸭哥每日手记