AI AgentAI 产品与平台检索与知识系统

Anthropic 的 Computer Use 是怎么训练出来的——从一项专利读它的数据管线

2024 年 10 月,Anthropic 在发布 Claude 3.5 Sonnet 的同时公布了 Computer Use:Claude 能看你的屏幕、识别界面元素、操作鼠标键盘完成任务。帮你在 Salesforce 里填报销单,在 Figma 里导出设计稿,在浏览器里预约会议。起初是面向开发者的 API 公测,到 2026 年 3 月随 Claude Cowork 向 Pro 和 Max 订阅用户开放了桌面端使用。时至今日在 Amazon Bedrock、Google Vertex AI、Azure Foundry 上都有 API 可用。

要训练出这样一个 Agent,你得喂给它大量”界面截图 → 下一步该点哪里”的配对数据。直觉上这没什么特别的——不就是录屏吗。但数据从哪来、以什么格式存在、规模够不够,这三件事合在一起,决定了 Agent 能不能从 demo 变成产品。

2025 年 10 月授予的一项 Anthropic 专利(U.S. 12,437,238)(2024 年 10 月提交)恰好从侧面回答了这个问题。它保护的不是 AI 怎么操作电脑——那个叫推理,每家都在做。它保护的是训练数据的采集和生成管线。

学术界的现成数据集,够做 benchmark,不够做产品

在 Anthropic 动手之前,训练一个计算机操作 Agent 并不是没有数据可用。学术圈在过去两年积累了大量 UI grounding 数据集:

从数据结构看,这些数据集和训练一个 Computer Use Agent 需要的东西格式一致:一张截图配一个操作目标。问题不在数据结构,在三个维度上。

第一,应用覆盖广度。GUI-360 和 OSWorld 覆盖的软件种类以十计。Agent 产品面对的却是成百上千种应用——从现代 Web App 到企业遗留系统。每多一类软件界面,模型要学的布局规律、交互模式、视觉特征就多一个维度。学术数据集填不了这个长尾。

第二,轨迹质量的下限。120 万条轨迹听上去多,但大部分来自少数几类操作:打开菜单、填表单、保存文件。真实工作中打断流程的弹窗、加载延迟、表单校验报错,在数据集里出现得少得多。学术数据是研究者为 benchmark 任务收集的,自带偏向干净场景的抽样偏差。

第三,时序连续性。真实操作是一串完整轨迹——“打开软件 → 点这个 → 填那个 → 等加载 → 看到弹窗 → 关弹窗 → 继续填”。学术数据集虽然有语义标注(“点击提交按钮”而不仅仅是坐标),但样本以单步或短轨迹为主,缺少长程操作中的前后依赖和中断恢复这类上下文。

三个维度的差距叠在一起:学术数据集能训出一个跑 benchmark 的 prototype,训不出一个在任意软件上可靠工作的产品。

专利的管线:核心是把操作数据变成了推理数据

Anthropic 的专利(“Generation of agentic trajectories for training artificial intelligence agents to automate multimodal interface task workflows”)描述了一条把人类操作变成训练数据的管线。和学术数据集之间真正的分界线不是数据量,而是这条管线里的每一步都在给原始操作附加推理信息。学术数据集的样本是”看到这个界面 → 做这个动作”,一组静态映射。Anthropic 的管线产出的样本是”看到这个界面 → 理解当前状态 → 判断下一步该做什么 → 做这个动作”,是一条推理链。

管线由三个环节组成,每个环节贡献一层推理。

第一环节:截获。 在用户和软件界面之间放一个中间层。用户正常操作——点击按钮、填表、滚动页面——这个中间层透明地记录每一步。但它不是单纯的录像。它在每一步操作之前截取界面状态(截图 + 可访问性元数据 + 文本内容),记录用户做了什么,然后截取操作之后的新界面状态。

这层截获最有意思的能力写在 Claim 5 里:用户可以附加思考标注——“我点这个按钮是因为它通常在右下角”、“这个地方应该选第三个选项,因为前两个是灰色的”。这些标注是人类在当前界面状态下做决策的推理过程,被直接编码进训练数据。对模型来说,这种数据不再是”模仿这个点击”,而是”理解为什么在这个状态下要点这里”。

第二环节:翻译。 截获的原始操作——“(342, 157) 点击”——被送入一个多模态 transformer 模型去理解。模型结合界面截图和操作上下文,推断用户的真实意图,输出语义化的命令:“识别到文本为’提交’的按钮元素,在 (330, 150, 400, 170) 区域内,执行点击”。这步的关键不是坐标转换,而是让模型推理出操作背后的意图——用户不是随机的点了一个像素,用户是想提交表单。翻译模型用自己的推理能力补全了原始操作中缺失的语义层。

第三环节:合成扩展。 一条真实操作轨迹经过截获和翻译,变成了一份带推理链的训练样本。Anthropic 接着用一个更强的模型对这份样本做合成扩展——给定同一张操作前的截图,让强模型自己推理并生成多种”看到这个界面后可以做什么”的合理变体。一条真实轨迹扩展出几十条训练样本,每条都包含完整的”看到界面 → 推理判断 → 做出动作”链路,覆盖不同的操作选择、不同的异常处理、不同的多步组合。

三个环节叠加在一起,做的事是同一件:把原始操作转换为推理数据。第一环节从人类那里获取推理标注,第二环节用模型补齐操作背后的意图推断,第三环节用更强的模型生成更多推理变体。RPA 式的录屏只能告诉你”用户做了什么”,这条管线告诉你”用户为什么这么做”——这正是训练一个能独立操作软件的 Agent 需要的东西。

管线的产业含义

回到开头的问题:Computer Use 的训练数据从哪来。答案不是”录了很多用户操作”——学术圈也在录。Anthropic 的不同在于把一个三环节管线的每个环节都工程化了,并且用专利保护了这套流程的组合方式。

当每一家都能做一个”看屏幕点按钮”的 Agent(Computer UseOpenAI OperatorCodex 桌面插件功能趋同),谁能覆盖更多软件、更稳定地完成更复杂的任务,由训练数据的质量和规模决定,不由模型跑分决定。而训练数据的质量和规模,由你有没有一套持续、低成本、大规模采集和扩展真实操作数据的管线决定。

专利保护的是这条管线的组合方式。竞争者可以绕——不用截获层,改用录屏加人工标注;不用合成扩展,扩大真实数据采集规模。但这些替代方案的时间成本和规模限制,就是 Anthropic 的先发窗口。

鸭哥每日手记

日更的深度AI新闻和分析